1、Requsets:最友好的网络爬虫功能库
http://www.python-requests.org/
- 提供了简单易用的类HTTP协议网络爬虫功能
- 支持连接池、SSL,Cookies,HTTP(S)代理等
- Python最主要的页面级网络爬虫功能库
import requests
r=requests.get('http://api.github.com/user',auth=('user','pass'))
r.status_code
r.headers['content-type']
r.encoding
r.text
2、Scrapy:优秀的网络爬虫框架
- 体哦概念股了构建网络爬虫系统的框架功能,功能半成品
- 支持批量和定时网页爬取、提供数据处理流程等
- Python最主要且最专业的网络爬虫框架
- 这是一个Python数据分析高层次应用库
3、pyspider:强大的Web页面爬取系统
- 提供了完整的网页爬取系统构建功能
- 支持数据库后端、消息队列、优先级、分布式架构等
- Python重要的网络爬虫类第三方库