目前Python有着形形色色的爬虫相关库,按照库的功能,整理如下。
类型 | 库名 | 简介 |
通用 | urllib | Python内置的HTTP请求库,提供一系列用于操作URL的功能 |
Requests | 基于urllib,采用Apache2 Licensed开源协议的HTTP库 | |
urllib 3 | 提供很多Python标准库里所没有的重要特性:线程安全,连接池,客户端SSL/TLS验证,文件分部编码上传,协助处理重复请求和HTTP重定位,支持压缩编码,支持HTTP和SOCKS代理,100%测试覆盖率 | |
框架 | scrapy | 一个为了爬取网站数据,提取结构性数据而编写的应用框架 |
HTML/XML解析器 | lxml | C语言编写高效HTML/XML处理库,支持XPath |
BeautifulSoup 4 | 纯Python实现的HTML/XML处理库,仅需少量代码,效率相对较低 |