生为张家界人我为张家界加油也会整个湖南加油!疫情爆发是张家界是最安全的,可在这个关键时刻张家界确实最危险的地方了,本篇文章会有点长都是干货可以耐心看完会收获到很多东西,如果需要python相关的资料欢迎找我领取哦~
加v:qwe54996
Python 编写的开源 Web 爬虫1. Scrapy
-
实现语言:Python
-
GitHub 星标数:28660
-
官方支持链接:https://scrapy.org/community/
简介
-
Scrapy 是一种高速的高层 Web 爬取和 Web 采集框架,可用于爬取网站页面,并从页面中抽取结构化数据。
-
Scrapy 的用途广泛,适用于从数据挖掘、监控到自动化测试。
-
Scrapy 设计上考虑了从网站抽取特定的信息,它支持使用 CSS 选择器和 XPath 表达式,使开发人员可以聚焦于实现数据抽取。
-
对于熟悉 Python 的开发人员,只需几分钟就能建立并运行 Scrapy。
-
支持运行在 Linux、Mac OS 和 Windows 系统上。
特性
-
内置支持从 HTML 和 XML 抽取数据、使用扩展的 CSS 选择器(Selector)和 XPath 表达式等特性。
-
支持以多种格式(JSON、CSV、XML)生成输出。
-
基于 Twisted 构建。
-
稳健的支持,自动检测编码方式。
-
快速,功能强大。
-
官方文档:https://docs.scrapy.org/en/latest/
-
官方网站:https://scrapy.org/
2. Cola
-
实现语言:Python
-
GitHub 星标数:1274
-
官方支持链接:https://scrapy.org/community/
简介
-
Cola 是一种高层分布式爬取框架,实现从网站爬取网页,并从中抽取结构化数据。
-
它提供了一种实现目标数据获取的简单且灵活的方式。
-
用户只需要编写其中一部分代码,就可在本地和分布式环境下运行。
特性
-
高层分布式爬取框架。
-
简单且高速。
-
灵活。
-
官方文档:https://github.com/chineking/cola
-
官方网站:https://pypi.org/project/Cola/
3. Crawley
-
实现语言 Python
-
GitHub 星标数: 144
-
官方支持链接:https://scrapy.org/community/
简介
-
Crawley 是一种 Python 爬取和采集框架,意在简化开发人员从 Web 网页抽取数据到数据库等结构化存储中。
特性
-
基于 Eventlet 构建的高速 Web 爬虫。
-
支持 MySQL、PostgreSQL、Oracle、Sqlite 等关系数据库引擎。
-
支持 MongoDB、CouchDB 等 NoSQL 数据库(最新特性!)。
-
支持导出数据为 JSON、XML 和 CSV 格式(最新特性!)。
-
命令行工具。
-
支持开发人员使用自己喜好的工具,例如 XPath 或 Pyquery(一种类似于 JQuery 的 Python 软件库)等。
-
支持 Cookie 处理器(Handler)。
-
官方文档:https://pythonhosted.org/crawley/
-
官方网站:http://project.crawley-cloud.com/
4. MechanicalSoup
-
实现语言: Python
-
GitHub 星标数: 2803
-
官方支持链接:https://scrapy.org/community/
简介
-
MechanicalSoup 是一种设计模拟人类使用 Web 浏览器行为的 Python 软件库,它基于解析软件库 BeautifulSoup 构建。
-
如果开发人员需要从单个站点采集数据,或是不需要大量数据采集,那么使用 MechanicalSoup 是一种简单高效的方法。
-
MechanicalSoup 自动存储和发送 Cookie、跟踪重定向、支持链接跟随和提交表单。
特性
-
轻量级。
-
支持 Cookie 处理器。
-
官方文档: https://mechanicalsoup.readthedocs.io/en/stable/
-
官方网站:https://mechanicalsoup.readthedocs.io/
5. PySpider
-
实现语言: Python
-
GitHub 星标数: 11803
-
官方支持链接:https://scrapy.org/community/
简介
-
PySpider 是一种 Python 编写的强大 Web 爬虫。
-
它支持 JavaScript 网页,并具有分布式架构。
-
PySpider 支持将爬取数据存储在用户选定的后台数据库,包括 MySQL, MongoDB, Redis, SQLite, Elasticsearch 等。
-
支持开发人员使用 RabbitMQ、Beanstalk 和 Redis 等作为消息队列。
特性
-
提供强大 Web 界面,具有脚本编辑器、任务监控、项目管理器和结果查看器。
-
支持对重度 Ajax 网站的爬取。
-
易于实现适用、快速的爬取。
-
官方文档: http://docs.pyspider.org/
-
官方网站:https://github.com/binux/pyspider
6. Portia
-
实现语言: Python
-
GitHub 星标数: 6250
-
官方支持链接:https://scrapy.org/community/
简介
-
Portia 是由 Scrapinghub 创建的一种可视化爬取工具,它不需要用户具有任何程序开发知识。
-
如果用户并非开发人员,最好直接使用 Portia 实现 Web 爬取需求。
-
用户无需任何安装就可免费试用 Portia,只需要在 Scrapinghub 注册一个账户,就可使用托管版本。
-
即便用户没有编程技能,在 Portia 中创建爬虫并抽取 Web 内容也