使用nodejs爬取网页图片

用nodejs作简易的爬虫

爬取网页图片并下载到本地,代码如下:

const https = require('https')
// const http = require('http') /* 方式二时使用*/
const fs = require('fs')
const cheerio = require('cheerio')
const request = require('request')
const path = require('path');

const imgDir = path.join(__dirname, 'img');

let url = 'https://www.xxxxxx.com/'


https.get(url, (res)=>{
    // 安全判断
    const {statusCode} = res
    const contentType = res.headers['content-type']
    console.log(statusCode, contentType)

    let err = null
    if (statusCode !== 200) {
        err = new Error('请求状态错误')
    } else if (!/^text\/html/.test(contentType)) {
        err = new Error('请求类型错误')
    }

    if (err) {
        console.log(err)
        res.resume() //重置缓存
        return false
    }

    let resData = ''
    res.on('data', (data)=>{
        resData += data.toString('utf8')
    })
    res.on('end', ()=>{
        //将请求数据保存在本地
        let $ = cheerio.load(resData)
        $('img').each((index, el) => {
            let imgUrl = $(el).attr('src')
            // console.log($(el).attr('src'))
            if (imgUrl) {
                let filename = imgUrl.split('/').pop()
                /* 方式一*/
                request('http:'+imgUrl).pipe(fs.createWriteStream(imgDir + '/' + filename));
                /* 方式二*/
                // var req = http.get('http:'+imgUrl, function (res) {
                //     var imgData = "";
                //     res.setEncoding("binary"); //一定要设置response的编码为binary否则会下载下来的图片打不开
                //     res.on("data", function (chunk) {
                //       imgData += chunk;
                //     });
                //     res.on("end", function () {
                //      let filename = imgUrl.split('/').pop()
                //       fs.writeFile(imgDir + '/' + filename, imgData, "binary", function (err) {
                //         if (err) {
                //           console.log("保存失败");
                //         }
                //         console.log("保存成功");
                //       });
                //     });
                //     res.on("error", function (err) {
                //       console.log("请求失败");
                //     });
                //   });
            }
            
        });
        console.log('数据传输完毕')
    })
}).on('error', (err)=>{
    console.log('请求错误')
})
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值