Node.js爬虫，爬取一个网站，并下载所有图片

最新推荐文章于 2024-07-26 08:57:17 发布

张一西-告白confession

最新推荐文章于 2024-07-26 08:57:17 发布

阅读量3.2k

点赞数 4

分类专栏： node爬虫文章标签： node爬虫 node.js 爬取图片爬虫爬虫网站

本文链接：https://blog.csdn.net/qq_42459742/article/details/87790803

版权

node爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这里用 ‘去哪网’ 为例：
首先，我们的目标是：
1.爬取一个网站
2.将网站的所有图片下载到本地
注释比较清楚了，大家可以直接复制使用；

const request = require('request')
const fs = require('fs')
const cheerio = require('cheerio')
request('https://www.qunar.com', function (error, response, body) {
    console.log('error:', error); // 错误优先
    console.log('statusCode:', response && response.statusCode); // Print the response status code if a response was received
    //   fs.writeFileSync('./qn.html',body,'utf8')
    //获取爬取网站的页面信息
    const $ = cheerio.load(body)
    let imgs = []
    //目标网站图片链接地址数组
    // 用正则判断数组中的路径是否存在https
    var _ = /(http[s]?|ftp)/;
    $('img').each((i, e) => {  // 遍历所有
        var src = $(e).attr('src');

        if (!_.test(src)) {
            src = src.replace(/\/{2}/, 'https://') //因为有些图片不可下载，所以用正则判断一下
        }
        imgs.push(src)
    })
    // 下载数组里的图片
    for (let index = 0; index < imgs.length; index++) {
        if (imgs[index].indexOf('http') !== -1) {
            request(imgs[index]).pipe(fs.createWriteStream(`./img/${index}.png`)) //这里为了省事，我就直接用下标命名了；
        }
    }
});

成功实例: 在这里插入图片描述