- scrapy
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
scrapy入门教程, 它的安装参考scrapy安装指南 - Beautiful Soup
执行命令pip install beautifulsoup4
,针对的是python2, - PyQuery
PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了,执行命令pip install pyquery
进行安装
pyquery官网 - pyspider
PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速、原生支持各种Web标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。执行命令pip install pyspider
进行安装
pyspider官网
参考资料
Python爬虫进阶一之爬虫框架概述
Python爬虫进阶二之PySpider框架安装配置
Python爬虫利器六之PyQuery的用法
Python爬虫利器二之Beautiful Soup的用法
Python爬虫实战六之抓取爱问知识人问题并保存至数据库