Node.js 实现爬虫（2） —— 多页面的爬虫程序_node代码爬虫,爬取全站a标签-CSDN博客

本文链接：https://blog.csdn.net/hard_hpp/article/details/77247326

本文介绍了如何使用Node.js实现多页面爬虫，首先获取多个页面URL，然后通过顺序爬取URL数组中的每个页面。为了避免回调地狱，采用Promise来改进程序，使代码更优雅易读。内容包括对CSDN博客周排行的爬取示例，以及推荐的慕课视频资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多页面的爬虫程序

在上一篇“简单的爬虫程序”中，我们写了一个对一个单页面进行爬虫的程序，今天，我们将实现对多个页面进行爬虫，也会使用到大名鼎鼎的promise。

Step1：获取多个页面的url

选取CSDN博客的排行榜中的博客周排行，获取每一条的url，为之后的爬虫做准备。
初始的url：http://blog.csdn.net/ranking.html
多个页面的url数组：urlArr[url1,url2,……,url10]

var http = require('http')
var cheerio = require('cheerio')
var url = 'http://blog.csdn.net/ranking.html'

function filterRankUrl(html){
   
    var $ = cheerio.load(html)     //加载html内容

    var blogRank = $('.rankList .ranking').eq(1).find('li')
    var blogRankUrl = []

    blogRank.each(function(item){
   
        var blogRankItem = $(this)
        var url = blogRankItem.find('a.blog_a').attr('href')
        blogRankUrl.push(url)
    })
    return blogRankUrl
}

//打印url数组
function printUrlInfo(blogRankData){
   
    blogRankData.forEach(function(item){
   
        console.log(item)
    })
}

http.get(url,function(res){
   
    var html = '';

    res.on('data',function(data){
   
        html+=data;
    })

    res.on('end',function(){
   
        var urlArr = filterRankUrl(html)        //获取url数组
        printUrlInfo(urlArr)
    })
}).on('error',function(){
   
    console.log('获取数据出错');
})

运行结果截图
这里写图片描述

Step2:顺序爬取url数组中的每个页面

下面使用回调函数，在获取url数组后顺序的访问每个页面的内容

每个页面的数据组成形式如下：

{
    author : author,
    blogs : [{
        title:title,
        description : descript