这两天开始接触 NodeJS 爬虫,网上的案例比较笼统和稀疏,也很难能对应起来。工作需要爬虫的任务,我也是先用 Python 写了个能跑的,之后摸索着用 NodeJS 来实现。
本想找个案例比对着写下 NodeJS 和 Python 爬虫的区别的,没找到合适的 api 数据接口做展示,索性先略过,之后遇到合适的案例再来分享。
今天主要的进展是将 Python 通过 requests 爬虫、pandas 将数据写入 csv 表格文件的过程,通过 NodeJS 做到了大致实现。先是通过 JS 的 request 模块写了一个版本,之后又转到后续会常用的 crawler 模块,写入 csv 文档的过程直接通过 fs 模块来实现。
本篇可能比较简短,想记录些研究学习现有代码过程中需要拓展的知识点。
crawler模块
轻量级爬虫工具,安装、使用示例
fs模块
fs 是 filesystem 缩写,文件系统模块,用来读写文件,方法使用说明
moment模块
日期处理类库,现成的时间日期相关的功能方法
seenreq模块
用于 req url 去重
url模块
winston模块
日志框架,方便打日志做相关处理