Nodejs 爬虫Github项目汇总

最新推荐文章于 2024-09-08 13:38:16 发布

南方有乔木

最新推荐文章于 2024-09-08 13:38:16 发布

阅读量1.1k

点赞数

分类专栏：【封存】

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27022241/article/details/106639979

版权

【封存】专栏收录该内容

178 篇文章 4 订阅

订阅专栏

Nodejs 爬虫Github项目汇总

DistributedCrawler

nodejs_crawler

node.js主从分布式爬虫

采用Redis为任务队列服务
主程序获取任务
从程序获得数据并下载
通过代理接口获取数据

headless-chrome-crawler

特征

分布式抓取
配置并发性，延迟和重试
支持深度优先搜索和广度优先搜索算法
可插拔的缓存存储，如Redis
支持导出结果的CSV和JSON行
在最大请求时暂停并在任何时候恢复
自动插入jQuery进行刮取
保存抓取证据的截图
仿真设备和用户代理
优先队列提高抓取效率
服从robots.txt
跟随sitemap.xml

x-ray

基于Node.js 的HTML 内容抓取工具。

特点：

灵活的架构：支持字符串，数组，对象数组和嵌套对象结构。
可组合： API完全可组合，为您提供了每页抓页的灵活性。
分页支持：通过网站分页，抓取每一页。
抓取工具支持：从一页开始，轻松移动到下一页。在广度优先爬行每个页面之后，流程是可预测的。
负责任：支持并发，限制，延迟，超时和限制，以帮助您负责任地抓取任何页面。
可插拔驱动程序：根据您的需要切换不同的

node-crawler

1）node-crawler逻辑是利用bottleneck任务调度器，将接收到的多个url当作多个任务添加至队列进行执行。
2）使用cheerio、jsdom或者whacko解析html。

Floodesh

node-crawler的分布式版本 floodesh ，即，将crawler维护的queue 改为分布式DB MongoDB，增加了主机index与客户端worker，分别负责任务调度与爬取工作。

supercrawler

自动爬取网页，维护一个队列(FIFO, db, redisDb)。可自定义处理器解析content。遵循robots.txt、速率和并发限制。

js-crawler

按照depth爬取以及确定何时停止。

支持 HTTP and HTTPS 协议。

使用Executor来限制任务处理速率（==未理解）。

爬取时使用3个队列：

1）knownUrls：已经访问过的Url ，格式类似于：{‘https://www.baidu.com/’: true, ‘https://tieba.baidu.com/index.html?traceid=’: false}；

2）crawledUrls：已经爬取过的Url；

3）_currentUrlsToCrawl：待爬取的Url队列。

simplecrawler

SQLite-simplecrawler-queue

boloto

easier http crawler by Node.js

roboto

bot-marvin

cnblogSpider

基于nodejs 的博客园爬虫项目.

node-fetch

A light-weight module that brings window.fetch to Node.js

fetch

mercury-parser

水星项目(丽姐参考)

html-extractor

从html字符串中提取meta-data（body, title, meta-tags, h1）.

parse5

HTML parsing/serialization toolset for Node.js.

Crawlab Team

南方有乔木

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

南方有乔木

博客等级

码龄10年

284
原创

245
点赞

798
收藏

238
粉丝

关注

私信

热门文章

分类专栏

最新评论

爬虫中的User-Agent和IP代理
.LBY: 太厉害啦学到了！感谢大佬的分享～开始学习！
Chromium Mojo消息管道的创建和使用文档
BranZhai: 感觉博主的复现不了很多头文件什么的现在也已经改名了权当看看思想，
Chromium Mojo消息管道的创建和使用文档
BranZhai: ../../content/browser/renderer_host/render_frame_host_impl.cc:16928:18: note: in instantiation of function template specialization 'std::make_unique<content::LoggerImpl, mojo::PendingReceiver<Bran::mojom::Logger>>' requested here 16928 | logger_ = std::make_unique<content::LoggerImpl>(std::move(receiver)); 为什么会失败呢主要问题是： /Users/bran/Code/chromium/src/out/Default/../../third_party/libc++/src/include/__memory/unique_ptr.h:65:19: error: invalid application of 'sizeof' to an incomplete type 'content::LoggerImpl' 65 | static_assert(sizeof(_Tp) >= 0, "cannot delete an incomplete type"); 但是我明明头文件什么的都包含了
【Maven】IDEA中Maven生命周期
Gemini要加油: 感谢作者，讲的很清楚
Chrome采集内核代码说明文档
瓦力船长: 大佬你们这个采集功能有开源吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。