python的数据爬取问题

最新推荐文章于 2022-05-23 10:42:23 发布

杨宇sss

最新推荐文章于 2022-05-23 10:42:23 发布

阅读量371

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37942145/article/details/69700836

版权

python有自己内置的库和许多第三方放入库，因此可以写很少的代码，实现更多的功能；

在python2.7.6版本以后都有pip和相关的架包不需要自己导入如urllib或者urllib2等等，不过在python3后合并在一起了；

1.urllib和urllib2都是Python的一个获取url（Uniform Resource Locators，统一资源定址器）的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证，cookies，代理，等等。这些都是由叫做opener和handler的对象来处理的。

以下是获取url最简单的方式：

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

2.当我们把相应url中的整个网页下载下来时，因为里面有乱，因此，我们就需要有一个清洗数据的过程，以下两种就可以实现

1.正则表达式http://www.runoob.com/python/python-reg-expressions.html

2.python beautifulsouphttp://cuiqingcai.com/1319.html

这两种方式后者比较简单，因为也是python的第三方库，因为正则很容易造成死循环；

这就是一个简单的数据爬取需要的相应库，当然要和java结合的话，需要python-java相关的插件；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。