花了一天的时间调研了一下主流的开源技术框架。
经过反复查看关键指标和技术框架的扩展性,筛选了一些实用的开源框架。
爬虫框架
项目 | 项目简介 | 贡献者数 | 主要语言 | 第一次发版时间 |
Scrapy 是一种快速的高性能网络爬虫框架,用于抓取网站并从其页面中提取结构化数据。 众多爬虫都是基于她开发的。广泛应用于从数据挖掘、数据监控和自动化测试。 | 502 | python | 2016-10-03 | |
webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的简化了爬虫的流程,如果您是一个java的忠实拥护者,她是一个很好的学习和使用框架。 | 44 | java | 2013-8-20 | |
基于Golang的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。 | 27 | go | 2019-4-23 | |
Crawlee 是 使用TypeScript基于Apify SDK 开发的爬虫框架,在防阻塞功能上有所努力并取得进展。 具备模仿模仿人的行为学特性,能够突破一般的反扒识别技术。Crawlee 是提供了抓取网络链接、抓取数据并将其存储到磁盘或云中的工具。 | 57 | typescrip | 2019-7-9 | |
自称为下一代爬虫框架,使用Golang语言开发,值得关注。 | 15 | go | 2022-11-7 |
爬虫周边功能
项目 | 项目简介 | 贡献者数 | 最后一次版本 |
图形化爬虫流程框架,可以算是爬虫的低代码平台。2020年上半年停止更新。 | 17 | 2020-4-13 | |
基于搜狗微信搜索的微信公众号爬虫接口。18年停更,有借鉴意义。 | 10 | 2018-5-5 | |
Scrapy 的redis 缓存组件 | 29 | N.A. | |
针对国内互联网大厂网站的爬虫,22年上半年停更,感兴趣可以去调研一下。 | 14 | 2022-3-6 | |
国内爬虫合规相关的文档 | 1 | N.A. | |
搜索引擎爬虫,支持多搜索引擎(Google、Yandex、Bing、Duckduckgo 等) | 11 | 2020-5-12 |
如果感觉对您有帮助的话,请关注,点赞,收藏,转发,您的鼓励是我最大的动力。