常用Python爬虫库汇总

最新推荐文章于 2024-05-07 18:15:42 发布

lmseo5hy

最新推荐文章于 2024-05-07 18:15:42 发布

阅读量2.5k

点赞数 4

分类专栏： python培训文章标签： Python爬虫库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lmseo5hy/article/details/82147655

版权

python培训专栏收录该内容

344 篇文章 56 订阅 ¥19.90 ¥99.00

订阅专栏

本文详细汇总了Python网络爬虫的各种库，包括网络库如urllib、requests，框架如Scrapy，HTML/XML解析器如BeautifulSoup，文本处理库如difflib、fuzzywuzzy，文件处理库如python-docx，自然语言处理库如NLTK，浏览器自动化库如selenium，异步网络编程库如asyncio，以及DNS解析库和计算机视觉库等。

摘要由CSDN通过智能技术生成

Python爬虫，全称Python网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或脚本，主要用于抓取证券交易数据、天气数据、网站用户数据和图片数据等，Python为支持网络爬虫正常功能实现，内置了大量的库，主要有以下类型：

一、Python爬虫网络库

Python爬虫网络库主要包括：urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser 、MechanicalSoup、mechanize、socket、Unirest for Python、hyper、PySocks、treq以及aiohttp等。

二、Python网络爬虫框架

Python网络爬虫框架主要包括：grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。

三、HTML/XML解析器

lxml：C语言编写高效HTML/ XML处理库，支持XPath；

cssselect：解析DOM树和CSS选择器；

pyquery：解析DOM树和jQuery选择器；

BeautifulSoup：低效HTML/ XML处理

了解本专栏

关注

4
点赞
踩
42

收藏

觉得还不错? 一键收藏
打赏
1
评论
常用Python爬虫库汇总

Python爬虫，全称Python网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或脚本，主要用于抓取证券交易数据、天气数据、网站用户数据和图片数据等，Python为支持网络爬虫正常功能实现，内置了大量的库，主要有以下类型：一、Python爬虫网络库Python爬虫网络库主要包括：urllib、requests、grab、pycurl、urllib3、httplib2、RoboB...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lmseo5hy 你的鼓励就是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。