nodejs有哪些爬虫框架?下面本篇文章给大家介绍几款nodejs爬虫框架。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。
node-spider
基于nodejs的通用爬虫框架,得益于nodejs的高性能异步io,爬虫的执行效率非常高。目前版本仅支持http/https协议,可以设置header属性和cookie会话保持,暂时还不支持代理。
软件架构
该框架主要分为调度器(node-shceduler) 下载器(node-downloader) 请求(node-request) 结果(node-response) 爬虫(node-spider) 数据抽取(node-pipeline)。 程序运行时:'调度器'从爬虫抽取'请求'或者'结果',如果是'请求'交给'下载器',如果是对象则交给node-pipeline保存数据。
node-crawler
Node Crawler:强大的Node开源爬虫
目标打造成Node社区最强大和流行的爬虫/内容抽取工具库,且支持生产环境。
特性:服务端DOM和自动jQuery注入,使用Cheerio(默认)或JSDOM
可配置的连接池大小和重试次数
Control rate limit
支持设置请求队列优先级
forceUTF8模式可让爬虫处理字符集编码探测和转换
兼容Node 4.x及以上版本
更新日志:https://github.com/bda-research/node-crawler/blob/master/CHANGELOG.