最近在研究爬虫,所以用自己熟悉的node简单写了一个。
开始用的是phantomjs来获取HTML,但是看了文档之后发现很久没有维护了,所以就放弃了。
后来寻寻觅觅发现了 Puppeteer,看了下是Google开发的,所以果断上手试了试,感觉比phantom不知道高到哪里去了。
B话少说,直接贴项目地址。
项目简介
技术栈
node、puppeteer、cheerio(虽然puppeteer集成了Jq,但是既然已经装了就用一下吧)
安装注意事项
在运行npm install 在安装 puppeteer的时候会报错,因为node下载chrome(puppeteer依赖chrome浏览器)会报错。所以先忽略掉chrome
npm install puppeteer --ignore-scripts
复制代码
安装成功之后,在去运行