nodeJS 爬虫,通过Puppeteer实现滚动加载

本文介绍了作者使用Node.js和Puppeteer库编写爬虫的过程,从放弃PhantomJS转向Puppeteer的原因,到Puppeteer的安装注意事项,以及如何通过Puppeteer实现网页滚动加载,抓取新闻标题、图片和链接。最后,数据被存储到本地文件,项目源码在github.com上提供。
摘要由CSDN通过智能技术生成

最近在研究爬虫,所以用自己熟悉的node简单写了一个。

开始用的是phantomjs来获取HTML,但是看了文档之后发现很久没有维护了,所以就放弃了。

后来寻寻觅觅发现了 Puppeteer,看了下是Google开发的,所以果断上手试了试,感觉比phantom不知道高到哪里去了。

B话少说,直接贴项目地址。

github.com/Huoshendame…

项目简介

技术栈

node、puppeteer、cheerio(虽然puppeteer集成了Jq,但是既然已经装了就用一下吧)

安装注意事项

在运行npm install 在安装 puppeteer的时候会报错,因为node下载chrome(puppeteer依赖chrome浏览器)会报错。所以先忽略掉chrome

npm install puppeteer --ignore-scripts
复制代码

安装成功之后,在去运行


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值