来源地址:
http://www.python88.com/topic/37015
https://mp.weixin.qq.com/s/sPAomFg-5JZigFUG_CtnaQ
网络抓取和解析
网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“01 文件读写”中找到。
1. requests
类型:第三方库
描述:网络请求库,提供多种网络请求方法并可定义复杂的发送信息
推荐度:★★★
2. urllib
类型:Python标准库
描述:Python自带的库,简单的读取特定URL并获得返回的信息
推荐度:★★
3.furl
类型:第三方库
GitHub:https://github.com/gruns/furl
对 url 的处理非常方便,比 urllib 等库好用多。
4. urllib2
类型:Python标准库
描述:Python自带的库,读取特定URL并获得返回的信息,相对于urllib可处理更多HTTP信息,例如cookie、身份验证、重定向等
推荐度:★★
5. urlparse
类型:Python标准库
描述:Python自带的URL解析库,可自动解析URL不同的域、参数、路径等
推荐度:★★★
6. HTMLParser
类型:Python标准库
描述:Python自带的HTML解析模块,能够很容易的实现HTML文件的分析
推荐度:★★★
7. Scapy
类型:第三方库
描述:分布式爬虫框架,可用于模拟用户发送、侦听和解析并伪装网络报文,常用于大型网络数据爬取
推荐度:★★★
8. Beautiful Soup
类型:第三方库
描述:Beautiful Soup是网页数据解析和格式化处理工具,通常配合Python的urllib、urllib2等库一起使用
推荐度:★★★