nodejs爬文章（一）

最新推荐文章于 2024-05-17 14:07:18 发布

苦逼的猿宝

最新推荐文章于 2024-05-17 14:07:18 发布

阅读量334

点赞数 3

分类专栏： node 文章标签：爬虫

本文链接：https://blog.csdn.net/GAGGAAAAA/article/details/137237984

版权

node 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

前言

前端自学弄着玩的,没啥用,爬取文章,

准备工作

准备一台电脑，node环境安装，vscode编辑器（我个人喜欢vscode）然后应该ok了

开始咱们的偷东西吧（哈哈哈）

1.随便找个你放文件的的文件夹新建一个文件夹

2.在文件的上面文件输入cmd

3.在命令窗口，输入 npm init ，一直回车即可

就会出现如下图（可能没有我这个样子，只是为了装依赖）

4.安装request和cheerio模块即可

npm i request cheerio

5.安装完毕，新建一个app.js文件，在里面输入以下代码：

const request = require('request');
const cheerio = require('cheerio');
const fs = require('fs')

const url = 'https://news.baidu.com/';

request(url, function (error, response, body) {
  // 如果请求成功且状态码为 200
  if (!error && response.statusCode == 200) {
    // 使用 cheerio 加载 HTML 文档
    const $ = cheerio.load(body);

    // 存储获取到的数据
    const totalData = []
    
    // 获取hotnews下全部的li元素
    $('.ulist').find('li').each(function (index, value){
        // 向数组中存放数据
        totalData.push({
            title: $(value).find('a').text(),
            href: $(value).find('a').attr('href')
        })
    })
    writeFs(totalData)
    // 打印结果
    console.log(totalData)
  }
});

function writeFs(totalData){
    fs.writeFile('./ulist.json', JSON.stringify(totalData), function (err, data) {
        if (err) {
            throw err
        }
        console.log('数据保存成功');
    })
}

6.运行结果（会生成一个json文件，格式随便你处理，也可以使用第三方插件，将数据处理成流的形式，导出文档例如word，excel等）