node爬虫不同页面爬取图片存储(页面获取图片所在页面的网址,进入对应页面下载相应图片)

最近公司在做旅游项目(部分是境外游),需要用到国家的国旗。设计发懒没有给我图片只发给我一个链接,让我爬下来……,我还能说什么爬下来呗(前端处处受气……)
https://data.countryflags.com/products/en/category/2996352/tiles/population-desc.html
从这个页面获取图片所在页面的网址,进入对应页面下载相应图片,设置变量然后循环找网址,进入新的页面下载图片。

git仓库 https://gitee.com/shuah153/Node.git

需要解释几点

1.需要引入https(因为下载的图片的网址是https的,http的网址就引入http)
2.设置User Agent

有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。
User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁在访问。如果服务器检查User Agent,那么没有设置User Agent的程序将无法正常访问网站。

少说话,直接上代码。

var http = require('https');
var fs = require('fs');
var cheerio = require('cheerio');
var request = require('request');
var q = 0;
var url = "https://data.countryflags.com/products/en/category/2996352/tiles/population-desc.html"; 
//初始url 

function fetchPage(url) {     //封装了一层函数
  startRequest(url); 
}
// 第一个页面  爬取第二个页面网址
function startRequest(url) {
  //采用http模块向服务器发起一次get请求      
  http.get(url, function (res) {     
      var html = '';        //用来存储请求网页的整个html内容
      var titles = [];        
      res.setEncoding('utf-8'); //防止中文乱码
      //监听data事件,每次取一块数据
      res.on('data', function (chunk) {   
          html += chunk;
          // console.log(html)
      });
      //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
      res.on('end', function () {
        var $ = cheerio.load(html); //采用cheerio模块解析html
        var link = 'https:' + $("div.thumbnail a.clearfix").eq(q).attr('href')
        secondRequest(link)
      });

  }).on('error', function (err) {
      console.log(err);
  });

}
// 第二个页面  爬取图片 和 名称
function secondRequest(link){
  http.get(link, function (res) {     
    var html = '';        //用来存储请求网页的整个html内容
    var titles = [];        
    res.setEncoding('utf-8'); //防止中文乱码
    //监听data事件,每次取一块数据
    res.on('data', function (chunk) {   
        html += chunk;
        // console.log(html)
    });

    //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
    res.on('end', function () {
      var $ = cheerio.load(html); //采用cheerio模块解析html
      var news_item = {
        //获取文章的标题
        title: $('div.panel-heading h3.panel-title').eq(0).text().trim(),   
        //获取图片url  爬取small png
        link:  'https:' + $(".download-example img").attr('src'),
        //i是用来判断获取了多少篇文章
        q: q = q + 1,     

      };
      savedImg($,news_item);    //存储每篇文章的图片及图片标题

      console.log(news_item)
      if (q <= 5) {                
        fetchPage(url);
      }
    });

  }).on('error', function (err) {
      console.log(err);
  });

}


//该函数的作用:在本地存储所爬取到的图片资源,把国家名称赋给图片
function savedImg($,news_item) {
  var img_filename = news_item.title + '.png';
  var img_src = news_item.link; //获取图片的url
  // console.log(img_src)
  //设置User Agent
  var options = {
    url: img_src,
    headers: {
      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
    }
  };
  //采用request模块,向服务器发起一次请求,获取图片资源
  request.head(options,function(err,res,body){
    if(err){
        console.log(err);
    }
  });
  request(options).pipe(fs.createWriteStream('./image/'+ img_filename));             //通过流的方式,把图片写到本地/image目录下,并用新闻的标题和图片的标题作为图片的名称。
  // request('https://cdn.countryflags.com/download/yemen/flag-png-small.png').pipe(fs.createWriteStream('./image/'+ img_filename)); 

}

fetchPage(url);      //主程序开始运行

已经可以说晚安了……,加油

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值