要实现爬虫,首先我们需要安装三个依赖,分别是express,superagent和cheerio。这里默认大家已经在本地安装好了node环境,不会安装的小伙伴建议自行百度~
首先来介绍一下上述提到的三个库:
superagent是个http方面的库,可以发起get或post请求,在本例中,我们使用;
cheerio可以理解为nodejs版的jquery,用来从网页中以css selector取数据,使用方式跟jquery一样;
express是一个基于nodejs平台,快速、开放、极简的Web开发框架。
今天要和大家一起爬cnode社区的首页数据,下面我们来看一下具体操作吧~
1.新建一个文件夹,进去之后npm init,一路enter,得到一个package.json文件;
2.安装依赖
npm install express superagent cheerio --save
3.写具体应用逻辑(新建app.js)
var express = require('express');
var cheerio = require('cheerio');
var superagent = require('superagent');
var app = express();
app.get('/', function (req, res, next) {
// 用 superagent 去抓取 https://cnodejs.org/ 的内容
superagent.get('https://cnodejs.org/')
.end(function (err, sres) {
// 常规的错误处理
if (err) {
return next(err);
}
// sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
// 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
// 剩下就都是 jquery 的内容了
var $ = cheerio.load(sres.text);
var items = [];
$('#topic_list .topic_title').each(function (idx, element) {
var $element = $(element);
items.push({
title: $element.attr('title'),
href: $element.attr('href')
});
});
res.send(items);
});
});
app.listen(8888, function () {
console.log('app is listening at port 8888');
});
4.测试效果
在浏览器中输入localhost:8888,得到结果。