【转】用node.js爬取网站图片并保存

最新推荐文章于 2022-08-30 12:03:30 发布

weixin_34221332

最新推荐文章于 2022-08-30 12:03:30 发布

阅读量157

点赞数

文章标签：爬虫 python

原文链接：https://my.oschina.net/iNiL0119/blog/780537

版权

2019独角兽企业重金招聘Python工程师标准>>>

原文：http://www.jianshu.com/p/177ca8aaf6fb

昨天是传说中的程序员节，虽然我对于这个并无感，但还是来搞点事吧，写一个最简单的爬虫，抓取图片并保存在本地，如下，我们抓取的是http://www.ivsky.com/这个网址的图片。
用到的模块：cheerio（一个在服务端操作DOM的模块）、fs（文件模块）、http
代码如下：

var http = require("http");
var fs = require("fs");
var cheerio = require("cheerio");
var url = "http://www.ivsky.com/";

function download ( url,callback ) {
    http.get( url,function(res){
        var data = "";
        res.on("data",function(chunk){
            data += chunk;
        });
        res.on("end",function(){
            callback(data)
        })
    }).on("error",function(err){
        console.log(err)
    })
}

download( url,function( data ) {
    if(data){
        var $=cheerio.load(data);
        $("img").each(function(i,elem){
            var imgSrc=$(this).attr("src");
            http.get(imgSrc,function(res){
                var imgData="";
                res.setEncoding("binary");
                res.on("data",function(chunk){
                    imgData += chunk;
                });
                console.log(imgData);
                res.on("end",function(){
                    var imgPath="/"+i+"."+imgSrc.split(".").pop();
                    fs.writeFile(__dirname + "/imgs"+imgPath,imgData,"binary",function(err){
                        console.log(err);
                    })
                })

            })
        })
    }
})

注意：所获取的数据的二进制数据，所以一定要设置编码格式为binary，因为writeFile的默认编码格式为utf-8，否则保存的图片无法打开。

运行代码不到5秒钟，就抓取完了并命名好了，这相对于我们手动保存，速度不知道要高到哪里去，截图如下：

1240