nodejs实现简单爬虫

最新推荐文章于 2024-06-18 13:17:18 发布

liya_nan

最新推荐文章于 2024-06-18 13:17:18 发布

阅读量2k

点赞数 1

分类专栏： nodejs 文章标签： node 爬虫

本文链接：https://blog.csdn.net/liya_nan/article/details/83898764

版权

nodejs 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

要实现爬虫，首先我们需要安装三个依赖，分别是express，superagent和cheerio。这里默认大家已经在本地安装好了node环境，不会安装的小伙伴建议自行百度～

首先来介绍一下上述提到的三个库：

superagent是个http方面的库，可以发起get或post请求，在本例中，我们使用；

cheerio可以理解为nodejs版的jquery，用来从网页中以css selector取数据，使用方式跟jquery一样；

express是一个基于nodejs平台，快速、开放、极简的Web开发框架。

今天要和大家一起爬cnode社区的首页数据，下面我们来看一下具体操作吧～

1.新建一个文件夹，进去之后npm init，一路enter，得到一个package.json文件;

2.安装依赖

npm install express superagent cheerio --save

3.写具体应用逻辑（新建app.js）

var express = require('express');
var cheerio = require('cheerio');
var superagent = require('superagent');

var app = express();

app.get('/', function (req, res, next) {
  // 用 superagent 去抓取 https://cnodejs.org/ 的内容
  superagent.get('https://cnodejs.org/')
    .end(function (err, sres) {
      // 常规的错误处理
      if (err) {
        return next(err);
      }
      // sres.text 里面存储着网页的 html 内容，将它传给 cheerio.load 之后
      // 就可以得到一个实现了 jquery 接口的变量，我们习惯性地将它命名为 `$`
      // 剩下就都是 jquery 的内容了
      var $ = cheerio.load(sres.text);
      var items = [];
      $('#topic_list .topic_title').each(function (idx, element) {
        var $element = $(element);
        items.push({
          title: $element.attr('title'),
          href: $element.attr('href')
        });
      });

      res.send(items);
    });
});

app.listen(8888, function () {
  console.log('app is listening at port 8888');
});

4.测试效果

在浏览器中输入localhost:8888，得到结果。

liya_nan

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
nodejs实现简单爬虫

要实现爬虫，首先我们需要安装三个依赖，分别是express，superagent和cheerio。这里默认大家已经在本地安装好了node环境，不会安装的小伙伴建议自行百度～首先来介绍一下上述提到的三个库：superagent是个http方面的库，可以发起get或post请求，在本例中，我们使用；cheerio可以理解为nodejs版的jquery，用来从网页中以css selector...
复制链接

扫一扫

专栏目录