Node.js 实现爬虫(2) —— 多页面的爬虫程序

多页面的爬虫程序

在上一篇“简单的爬虫程序”中,我们写了一个对一个单页面进行爬虫的程序,今天,我们将实现对多个页面进行爬虫,也会使用到大名鼎鼎的promise。

Step1:获取多个页面的url

选取CSDN博客的排行榜中的博客周排行,获取每一条的url,为之后的爬虫做准备。
初始的url:http://blog.csdn.net/ranking.html
多个页面的url数组:urlArr[url1,url2,……,url10]

var http = require('http')
var cheerio = require('cheerio')
var url = 'http://blog.csdn.net/ranking.html'

function filterRankUrl(html){
   
    var $ = cheerio.load(html)     //加载html内容

    var blogRank = $('.rankList .ranking').eq(1).find('li')
    var blogRankUrl = []

    blogRank.each(function(item){
   
        var blogRankItem = $(this)
        var url = blogRankItem.find('a.blog_a').attr('href')
        blogRankUrl.push(url)
    })
    return blogRankUrl
}

//打印url数组
function printUrlInfo(blogRankData){
   
    blogRankData.forEach(function(item){
   
        console.log(item)
    })
}

http.get(url,function(res){
   
    var html = '';

    res.on('data',function(data){
   
        html+=data;
    })

    res.on('end',function(){
   
        var urlArr = filterRankUrl(html)        //获取url数组
        printUrlInfo(urlArr)
    })
}).on('error',function(){
   
    console.log('获取数据出错');
})

运行结果截图
这里写图片描述

Step2:顺序爬取url数组中的每个页面

下面使用回调函数,在获取url数组后顺序的访问每个页面的内容

每个页面的数据组成形式如下:

{
    author : author,
    blogs : [{
        title:title,
        description : descript
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值