Python爬虫库推荐，建议收藏留用

最新推荐文章于 2024-07-16 21:57:11 发布

Python正在输入中......

最新推荐文章于 2024-07-16 21:57:11 发布

阅读量1k

点赞数

分类专栏： Python干货文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/veratata/article/details/128624694

版权

本文介绍了Python爬虫学习中需要掌握的各类库，包括通用库如requests和BeautifulSoup，网络爬虫框架如Scrapy和pyspider，HTML/XML解析器如lxml和BeautifulSoup，以及文本处理和自然语言处理的库。此外，还提到了一些Web开发框架如Django和Flask，帮助理解网络爬虫的上下文。

摘要由CSDN通过智能技术生成

很多人学Python，都是从爬虫开始的，毕竟网上类似的资源很丰富，开源项目也非常多。

Python学习网络爬虫主要分3个大的版块：抓取，分析，存储

当我们在浏览器中输入一个url后回车，后台会发生什么？

简单来说这段过程发生了以下四个步骤：

•查找域名对应的IP地址。•向IP对应的服务器发送请求。•服务器响应请求，发回网页内容。•浏览器解析网页内容。

那么学习爬虫需要掌握哪些库呢？

通用：

1.urllib -网络库(stdlib)。
2.requests -网络库。
3.grab – 网络库（基于pycurl）。
4.pycurl – 网络库（绑定libcurl）。
5.urllib3 – Python HTTP库，安全连接池、支持文件post、可用性高。
6.httplib2 – 网络库。
7.RoboBrowser – 一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页。
8.MechanicalSoup -一个与网站自动交互Python库。
9.mechanize -有状态、可编程的Web浏览库。
10.socket – 底层网络接口(stdlib)。
11.Unirest for Python – Unirest是一套可用于多种语言的轻量级的HTTP库。
12.hyper – Python的HTTP/2客户端。
13.PySocks – SocksiPy更新并积极维护的版本，包括错误修复和一些其他的特征。作为socket模块的直接替换。