【NodeJS】案例：写一个爬虫程序从某网站批量下载图片

最新推荐文章于 2023-05-14 17:14:07 发布

置顶 Lik1024

最新推荐文章于 2023-05-14 17:14:07 发布

阅读量589

点赞数

分类专栏： NodeJS 文章标签： NodeJS

本文链接：https://blog.csdn.net/github_39365750/article/details/100104259

版权

NodeJS 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

技术准备

NodeJS 中的 http模块、fs模块
正则表达式

开发思路

1. 打开网页查看内容，找图片地址
		找规律 => 查看网页源代码
		小图： 
		大图：

2. 编写代码实现打开网页，获取所有的html内容

3. 通过正则表达式提取出有哪些图片地址
	var reg=/<img src=".+?" data-src="(.+?)"  alt=".*?" \/>/img;
	while(result=reg.exec(data)){
    	arr.push(getImgUrl(result[1]));
   	}

4. 遍历图片地址数组，一个一个请求

5. 将获取到的图片数据保存在硬盘上

示例代码

var http = require('http');
var fs = require('fs');

http.get('<url>', res => {
 // 定义一个变量用于存放一段一段的HTML数据
 var data = '';
 // 以流的方式读取数据
 res.on('data', a => {
   data += a.toString();
 });
 //绑定end事件
 res.on('end', () => {
   // data 就是当前网页的HTML内容
   // 编写正则表达式提取所有的图片地址
   var reg = /<img src=".+?" data-src="(.+?)"  alt=".*?" \/>/img;
   var result;
   var arr = [];

   while (result = reg.exec(data)) {  //.exec正则表达式方法：获取匹配到的结果，只能获取一个，指针自动自下移动
     arr.push(getImgUrl(result[1]));
   }
   //根据数组中的图片地址获取图片数据
   for (let i in arr) {
     setTimeout(() => {
       saveImg(arr[i])
     }, 500 * i)
   }
 });
});

// 图片地址处理
function getImgUrl(url) {
 return url.replace('/pic/', '/file/').replace('4.jpg', '2.jpg');
}

// 写文件
function saveImg(url) {
 http.get(url, res => {
   var fn = new Date().getTime();
   //创建一个可写流
   var stream = fs.createWriteStream('./files/' + fn + '.jpg');
   res.pipe(stream);
 });
}