数据篇-爬虫开源框架推荐

行客科技

已于 2023-01-23 19:47:22 修改

阅读量718

点赞数

分类专栏：数据文章标签：爬虫数据挖掘

于 2023-01-23 19:34:22 首次发布

本文链接：https://blog.csdn.net/Tsinghua2MIT/article/details/128753690

版权

2 篇文章 0 订阅

订阅专栏

本文列举了多个主流的开源爬虫框架，包括Scrapy、WebMagic和Crawlab等，以及一些爬虫周边功能如spider-flow图形化框架和scrapy-redis缓存组件。这些工具覆盖了Python、Java和Golang等编程语言，适用于不同需求的爬虫开发。

摘要由CSDN通过智能技术生成

花了一天的时间调研了一下主流的开源技术框架。

经过反复查看关键指标和技术框架的扩展性，筛选了一些实用的开源框架。

爬虫框架

项目	项目简介	贡献者数	主要语言	第一次发版时间
Scrapy	Scrapy 是一种快速的高性能网络爬虫框架，用于抓取网站并从其页面中提取结构化数据。众多爬虫都是基于她开发的。广泛应用于从数据挖掘、数据监控和自动化测试。	502	python	2016-10-03
webmagic	webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的简化了爬虫的流程，如果您是一个java的忠实拥护者，她是一个很好的学习和使用框架。	44	java	2013-8-20
crawlab	基于Golang的分布式爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。	27	go	2019-4-23
crawlee	Crawlee 是使用TypeScript基于Apify SDK 开发的爬虫框架，在防阻塞功能上有所努力并取得进展。具备模仿模仿人的行为学特性，能够突破一般的反扒识别技术。Crawlee 是提供了抓取网络链接、抓取数据并将其存储到磁盘或云中的工具。	57	typescrip	2019-7-9
katana	自称为下一代爬虫框架，使用Golang语言开发，值得关注。	15	go	2022-11-7

项目	项目简介	贡献者数	最后一次版本
spider-flow	图形化爬虫流程框架，可以算是爬虫的低代码平台。2020年上半年停止更新。	17	2020-4-13
WechatSogou	基于搜狗微信搜索的微信公众号爬虫接口。18年停更，有借鉴意义。	10	2018-5-5
scrapy-redis	Scrapy 的redis 缓存组件	29	N.A.
ECommerceCrawlers	针对国内互联网大厂网站的爬虫，22年上半年停更，感兴趣可以去调研一下。	14	2022-3-6
Crawler_Illegal_Cases_In_China	国内爬虫合规相关的文档	1	N.A.
GoogleScraper	搜索引擎爬虫，支持多搜索引擎（Google、Yandex、Bing、Duckduckgo 等）	11	2020-5-12