Python库之网络抓取和解析

来源地址:

http://www.python88.com/topic/37015

https://mp.weixin.qq.com/s/sPAomFg-5JZigFUG_CtnaQ

网络抓取和解析

网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“01 文件读写”中找到。

1. requests
类型:第三方库
描述:网络请求库,提供多种网络请求方法并可定义复杂的发送信息
推荐度:★★★

2. urllib
类型:Python标准库
描述:Python自带的库,简单的读取特定URL并获得返回的信息
推荐度:★★

3.furl
类型:第三方库
GitHub:https://github.com/gruns/furl
对 url 的处理非常方便,比 urllib 等库好用多。

4. urllib2
类型:Python标准库
描述:Python自带的库,读取特定URL并获得返回的信息,相对于urllib可处理更多HTTP信息,例如cookie、身份验证、重定向等
推荐度:★★

5. urlparse
类型:Python标准库
描述:Python自带的URL解析库,可自动解析URL不同的域、参数、路径等
推荐度:★★★

6. HTMLParser
类型:Python标准库
描述:Python自带的HTML解析模块,能够很容易的实现HTML文件的分析
推荐度:★★★

7. Scapy
类型:第三方库
描述:分布式爬虫框架,可用于模拟用户发送、侦听和解析并伪装网络报文,常用于大型网络数据爬取
推荐度:★★★

8. Beautiful Soup
类型:第三方库
描述:Beautiful Soup是网页数据解析和格式化处理工具,通常配合Python的urllib、urllib2等库一起使用
推荐度:★★★

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值