Python库之网络爬虫

1、Requsets:最友好的网络爬虫功能库

http://www.python-requests.org/

  • 提供了简单易用的类HTTP协议网络爬虫功能
  • 支持连接池、SSL,Cookies,HTTP(S)代理等
  • Python最主要的页面级网络爬虫功能库
import requests
r=requests.get('http://api.github.com/user',auth=('user','pass'))
r.status_code
r.headers['content-type']
r.encoding
r.text

2、Scrapy:优秀的网络爬虫框架

http://scrapy.org

  • 体哦概念股了构建网络爬虫系统的框架功能,功能半成品
  • 支持批量和定时网页爬取、提供数据处理流程等
  • Python最主要且最专业的网络爬虫框架
  • 这是一个Python数据分析高层次应用库

3、pyspider:强大的Web页面爬取系统

http://docs.pyspider.org

  • 提供了完整的网页爬取系统构建功能
  • 支持数据库后端、消息队列、优先级、分布式架构等
  • Python重要的网络爬虫类第三方库
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值