网络爬虫小结

最新推荐文章于 2023-12-03 15:39:19 发布

weixin_30644369

最新推荐文章于 2023-12-03 15:39:19 发布

阅读量146

点赞数

文章标签：爬虫

原文链接：http://www.cnblogs.com/cxf-zzj/p/9740353.html

版权

Python中可以用来爬取网络数据的库有很多，常见的有：urllib、urllib2、urllib3、requests、scrapy、selenium等。

基本上可以分为3类：

第一类：urllib、urllib2、urllib3、requests；

第二类：scrapy；

第三类：selenium；

第一类是python自带的库，其中requests上手简单，功能强大,缺点就是缺少配套工程，自己需要自己写不少的代码处理语料(哈哈，urllib、urllib2、urllib3不建议画太多精力在上面)；

第二类和第三类是封装好的框架，功能强大，配套的工程多，但上手相对复杂；

Scrapy和requests比较难以处理动态网页，selenium比较适合处理动态网页；

相反的，Scrapy适合大规模的数据爬取，而selenium只适合小规模的数据爬取。

转载于:https://www.cnblogs.com/cxf-zzj/p/9740353.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注