爬虫干货文章
爬虫常用框架
- scrapy框架:目前较成熟与常用的爬虫框架
- Crawley框架:可以比较高效地攫取互联网对应的内容
- Portia框架: 可以可视化地爬取网页的框架
- newspaper:用来提取新门卫新闻,文章及内容分析的Python爬虫框架,由第三方开发
- pyspider爬虫框架: 能在浏览器界面上进行脚本的编写
- Grab爬虫框架:用于构建Web刮板的Python框架
- Cola爬虫框架:分布式爬虫框架
爬虫模拟浏览器框架
- Selenium:常用,略
- Splinter:Python 开发的开源web自动化测试的工具集
- Spynner:可编程Web浏览器Python模块,支持AJAX,可爬取js动态界面
- pyppeteer:安装配置的便利性和运行效率方面都要远胜selenium
- PhantomJS:已停止更新
- Splash:带有HTTP API的轻量级Web浏览器,常与scrapy搭配使用
- requests-html:在requests库基础上增加解析HTML的功能
代理爬虫
爬虫辅助工具
- 解析模块 lxml
- 解析模块 beautifulsoup
- 解析模块 pyquery
- 解析模块 js2py 通过python执行JavaScript代码
- 解析模块 execjs 通过python执行JavaScript代码
- 伪装UA fake-useragent
- 抓包工具 fiddler
- Chrome开发者工具详解