通过node实现一个简单爬虫功能

最新推荐文章于 2024-05-14 08:21:54 发布

cain_cao

最新推荐文章于 2024-05-14 08:21:54 发布

阅读量731

点赞数

分类专栏： node

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cao980519/article/details/107090265

版权

node 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本人刚接触node！通过仿照搭建实现功能

1：首先安装node并且分别安装这3个依赖包express、cheerio 、superagent

命令：npm install express -g

npm install cheerio -g

npm install superagent -g

2:创建一个app.js文件

3：在app.js文件分别引入express、cheerio 、superagent

4：app.js代码如下：

const express = require('express')

const superagent = require('superagent');

// 引入所需要的第三方包

const cheerio = require('cheerio');

// ...

const app = express();

let server = app.listen(8000, function () {

let host = server.address().address;

let port = server.address().port;

console.log('Your App is running at http:localhost:3000');

});

let hotNews = []; // 热点新闻

let localNews = []; // 本地新闻

/**

* index.js

* [description] - 使用superagent.get()方法来访问百度新闻首页

*/

let getHotNews = (res) => {

let hotNews = [];

// 访问成功，请求http://news.baidu.com/页面所返回的数据会包含在res.text中。

/* 使用cheerio模块的cherrio.load()方法，将HTMLdocument作为参数传入函数

以后就可以使用类似jQuery的$(selectior)的方式来获取页面元素

*/

let $ = cheerio.load(res.text);

// 找到目标数据所在的页面元素，获取数据

$('div#pane-news ul li a').each((idx, ele) => {

// cherrio中$('selector').each()用来遍历所有匹配到的DOM元素

// 参数idx是当前遍历的元素的索引，ele就是当前便利的DOM元素

let news = {

title: $(ele).text(), // 获取新闻标题

href: $(ele).attr('href') // 获取新闻网页链接

};

hotNews.push(news) // 存入最终结果数组

});

return hotNews

};

superagent.get('http://news.baidu.com/').end((err, res) => {

if (err) {

// 如果访问失败或者出错，会这行这里

console.log(`热点新闻抓取失败 - ${err}`)

} else {

// 访问成功，请求http://news.baidu.com/页面所返回的数据会包含在res

// 抓取热点新闻数据

hotNews = getHotNews(res)

// console.log('数据', hotNews)

}

});

app.get('/', async (req, res) => {

res.send(hotNews);

});

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
通过node实现一个简单爬虫功能

本人刚接触node！通过仿照搭建实现功能1：首先安装node并且分别安装这3个依赖包express、cheerio 、superagent命令：npm install express -g npm install cheerio -g npm install superagent -g2:创建一个app.js文件3：在app.js文件分别引入express、cheerio 、superagent4：app.js代码如下：constex...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。