利用cheerio模块实现爬虫某网页图片并存储到本地文件夹

最新推荐文章于 2023-10-12 14:44:26 发布

飞龙王

最新推荐文章于 2023-10-12 14:44:26 发布

阅读量396

点赞数

文章标签： js javascript nodejs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37634735/article/details/105989489

版权

任意网页都可以爬虫：

const http = require('http')

const cheerio = require('cheerio')

const fs=require('fs')

let url='http://www.nipic.com/photo/xiandai/jiaotong/index.html?page=4'

http.get(url, (res) => {//框架

let txt = '';

res.on('data', (data) => {//数据获取data事件

txt += data;

})

res.on('end', () => {//end事件，对数据进行处理

tmp(txt);

})

})

function tmp(data){//具体处理函数

let arr=[];

let $=cheerio.load(data);//加载dom对象

let tmp_div=$('img')//直接获取标签

tmp_div.each((index,item)=>{//多个标签操作直接用each，不能forEach

var xx=$(item)

//console.log(xx.attr())//先输出以下此标签的各个属性和其值，然后看看如何选择。

//console.log(xx.attr('data-src'))//使用attr获取属性的值

arr.push(xx.attr('data-src'))//把每一张图片的路径放到数组中

})

for(i in arr){

((i)=>{

setTimeout(() => {

tmp2(arr[i])//循环遍历数组值，调用管道输出到文件目录中

}, 500*i)

})(i)

}

}

function tmp2(url1){

http.get(url1,(res)=>{

console.log(url1)

let name=new Date().getTime();

let asd=fs.createWriteStream('./tmp/' + name + '.png')//文件名拼接

res.pipe(asd)//实现输出

})

}

爬虫框架如下：任意网页都可以实现爬虫：

const http = require('http')

const cheerio = require('cheerio')

const fs=require('fs')

let url='http://www.nipic.com/photo/xiandai/jiaotong/index.html?page=4'

http.get(url, (res) => {//框架

let txt = '';

res.on('data', (data) => {

txt += data;

})

res.on('end', () => {

tmp(txt);

})

})

function tmp(data){

}

function tmp2(url1){

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。