多页面的爬虫程序
在上一篇“简单的爬虫程序”中,我们写了一个对一个单页面进行爬虫的程序,今天,我们将实现对多个页面进行爬虫,也会使用到大名鼎鼎的promise。
Step1:获取多个页面的url
选取CSDN博客的排行榜中的博客周排行,获取每一条的url,为之后的爬虫做准备。
初始的url:http://blog.csdn.net/ranking.html
多个页面的url数组:urlArr[url1,url2,……,url10]
var http = require('http')
var cheerio = require('cheerio')
var url = 'http://blog.csdn.net/ranking.html'
function filterRankUrl(html){
var $ = cheerio.load(html) //加载html内容
var blogRank = $('.rankList .ranking').eq(1).find('li')
var blogRankUrl = []
blogRank.each(function(item){
var blogRankItem = $(this)
var url = blogRankItem.find('a.blog_a').attr('href')
blogRankUrl.push(url)
})
return blogRankUrl
}
//打印url数组
function printUrlInfo(blogRankData){
blogRankData.forEach(function(item){
console.log(item)
})
}
http.get(url,function(res){
var html = '';
res.on('data',function(data){
html+=data;
})
res.on('end',function(){
var urlArr = filterRankUrl(html) //获取url数组
printUrlInfo(urlArr)
})
}).on('error',function(){
console.log('获取数据出错');
})
运行结果截图
Step2:顺序爬取url数组中的每个页面
下面使用回调函数,在获取url数组后顺序的访问每个页面的内容
每个页面的数据组成形式如下:
{
author : author,
blogs : [{
title:title,
description : descript