网络爬虫

最新推荐文章于 2024-08-16 18:55:06 发布

blue-light

最新推荐文章于 2024-08-16 18:55:06 发布

阅读量270

点赞数

分类专栏：爬虫文章标签：网络爬虫 python

1 篇文章 0 订阅

订阅专栏

2016-02-16
深圳龙岗区
天气：多云 21度

内置库实现：requests
Scrapy：异步，分布式爬虫，基于这个框架来写自己的爬虫，简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。
html5lib：处理 js 运行后的结果
用 beautifulsoup4 的接口，让它内部用 html5lib
Beautiful Soup。名气大，整合了一些常用爬虫需求。缺点：不能加载JS，可解析html，用一些科学库做一些简单的统计和报表，比如 numpy、scipy、matplotlib等。
mechanize。优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
selenium。这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。
cola。一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高，不过值得借鉴。
pyspider
sola

细节是相当可怕的存在,比如,数据的提取,用正则还是xpath,为什么不是所有的页面都有下一页,一晚上爬了5000条数据,我一共有20万条怎么办,爬虫又被封了。

关注

专栏目录