NodeJS简单爬虫-资源下载

最新推荐文章于 2024-09-08 13:38:16 发布

朦dada

最新推荐文章于 2024-09-08 13:38:16 发布

阅读量657

点赞数 1

分类专栏： NodeJS 文章标签： NodeJS puppeteer

本文链接：https://blog.csdn.net/mengStudents/article/details/82051653

版权

NodeJS 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、需求

扒取当前网页的请求资源，包括：js、css、

2、环境及使用工具

NodeJS     puppeteer    Gulp

3、环境的搭建

3-1、安装nodejs

为了支持async和await，我们需要安装较高版本的node,具体安装过程查看官网：(https://nodejs.org/zh-cn/download/)

3-2、安装puppeteer

MAC用户建议使用yarn来安装，安装方式如下：[在安装的过程中，会默认安装chromium,如果安装不成功，可以跳过该安装过程，自己手动安装chromium]

  yarn add puppeteer
  //或者
  npm install puppeteer

3-3、安装gulp

需要全局安装gulp

npm install --save-dev -g gulp

4、爬虫代码

4-1、请求资源的获取

const links = [];
const browser = await puppeteer.launch();
const page = await browser.newPage();

await page.goto(url);//打开网页

const allRequests = new Map();

await page.on('request', req => {
    //获取请求资源
    links.push(req._url);
    allRequests.set(req.url(), req);
});

await page.reload({waitUntil: 'networkidle0'})
await browser.close();

4-2、资源的下载

const download = require('gulp-downloader');
gulp.task('download', function () {
    return new Promise(function (resolve, reject) {
        download(url).pipe(gulp.dest('./dist'));//将请求到的资源下载到指定的目录下
    })
})