nodejs 简易爬虫

2 篇文章 0 订阅

用nodejs编写爬虫跟其他语言一样,比较简单,比较各个语言标准库都差不多,主要就是抓取页面,然后分析dom节点,获取数据。

requests 经典的请求库,cherrio 像jquery一样解析dom的库。
这里用csdn举例。

var request = require('request');
var promise = require('bluebird');
const cheerio = require('cheerio');
const baseUrl = "https://blog.csdn.net/ghostyusheng/article/list/";

function startReq(url) {
    return new Promise(function (resolve, reject) {
       let titles = []; 

        request(url, function (error, response, body) {
            const $ = cheerio.load(body);
            const data = $('h4 > a');
            
            data.map((k) => {
                const title = data[k].children[0].next.next.data;
                titles.push(title);
            })

            resolve(titles);
        });

    });
}

for (let i = 1; i < 10; i++) {
    const url = baseUrl + i;
    promise
        .all(startReq(url))
        .then(function(titles) {
            console.log('scrawl complate!', titles);
        })
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值