9个用来爬取网络站点的 Python 库

最新推荐文章于 2023-05-29 15:27:45 发布

实验楼v

最新推荐文章于 2023-05-29 15:27:45 发布

阅读量355

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MOY37RQW1JarN33BgZk/article/details/86582004

版权

640?wx_fmt=png

上期入口：10个不到500行代码的超牛Python练手项目

1️⃣Scrapy

一个开源和协作框架，用于从网站中提取所需的数据。以快速，简单，可扩展的方式。

官网：https://scrapy.org/

相关课程推荐：Python 网站信息爬虫

2️⃣cola

一个分布式爬虫框架。

GitHub：https://github.com/chineking/cola

3️⃣Demiurge

基于 PyQuery 的爬虫微型框架。

官网：https://demiurge.readthedocs.io/en/v0.2/

4️⃣feedparser

通用 feed 解析器。

官网：https://pythonhosted.org/feedparser/

5️⃣Grab

Grab 是一个用于构建 Web scraper 的 python 框架。使用 Grab，您可以构建各种复杂性的 Web scraper，从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。与 HTML 文档的 DOM 树交互。

官网：https://grablib.org/en/latest/

6️⃣MechanicalSoup

用于自动和网络站点交互的 Python 库。

GitHub：https://github.com/MechanicalSoup/MechanicalSoup

7️⃣portia

Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。使用 Portia 可以注释一个网页以识别您想要提取的数据，Portia 将根据这些注释了解如何从类似页面中抓取数据。

GitHub：https://github.com/scrapinghub/portia

8️⃣pyspider

一个强大的爬虫系统。

官网：http://docs.pyspider.org/

9️⃣RoboBrowser

一个简单的，Python 风格的库，用来浏览网站，而不需要一个独立安装的浏览器。

官网：https://scrapy.org/

【关于技术清单】技术清单是由实验楼整合、梳理的一系列知识点合辑；每辑都有MD，PDF和思维导图多样呈现，并提供下载。本期为Python系列，包含5篇精选清单，下载方式如下：

640?wx_fmt=jpeg

相关阅读

8个爽滑的Windows小软件，不好用你拿王思葱砸死我

60人，42天，死磕机器学习，结果如下。

武侠版编程语言...Java像张无忌还是令狐冲？

大量机器学习&深度学习资料

技术变现，到底怎么变？

640?wx_fmt=jpeg

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。