nodejs爬文章(一)

 前言

前端自学弄着玩的,没啥用,爬取文章,

准备工作

准备一台电脑,node环境安装,vscode编辑器(我个人喜欢vscode)然后应该ok了

开始咱们的偷东西吧(哈哈哈)

1.随便找个你放文件的的文件夹新建一个文件夹

2.在文件的上面文件输入cmd

3.在命令窗口,输入 npm init ,一直回车即可

就会出现如下图(可能没有我这个样子,只是为了装依赖)

4.安装request和cheerio模块即可

npm i request  cheerio 

5.安装完毕,新建一个app.js文件,在里面输入以下代码:

const request = require('request');
const cheerio = require('cheerio');
const fs = require('fs')

const url = 'https://news.baidu.com/';

request(url, function (error, response, body) {
  // 如果请求成功且状态码为 200
  if (!error && response.statusCode == 200) {
    // 使用 cheerio 加载 HTML 文档
    const $ = cheerio.load(body);

    // 存储获取到的数据
    const totalData = []
    
    // 获取hotnews下全部的li元素
    $('.ulist').find('li').each(function (index, value){
        // 向数组中存放数据
        totalData.push({
            title: $(value).find('a').text(),
            href: $(value).find('a').attr('href')
        })
    })
    writeFs(totalData)
    // 打印结果
    console.log(totalData)
  }
});

function writeFs(totalData){
    fs.writeFile('./ulist.json', JSON.stringify(totalData), function (err, data) {
        if (err) {
            throw err
        }
        console.log('数据保存成功');
    })
}

6.运行结果(会生成一个json文件,格式随便你处理,也可以使用第三方插件,将数据处理成流的形式,导出文档例如word,excel等)

7.完毕啦

结束语

这就是简单的爬取文章,哈哈哈,有什么不对的地方欢迎大家指教,好像这个request模块已经不更新了,这算上古时期的request模块了,好像有个新的模块!

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苦逼的猿宝

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值