使用node+cheerio爬取网页上的内容

使用node做爬虫必不可少的一个包是cheerio
今天要爬的网址为:
http://blog.sina.com.cn/s/blog_4d30d65b01009rn5.html
要爬取的内容如下:
在这里插入图片描述

// 两种方式爬取文本http协议url的文本
const cheerio = require("cheerio")
const http = require("http")
const fs = require("fs")
const axios = require("axios")

var url = "http://blog.sina.com.cn/s/blog_4d30d65b01009rn5.html"
// 使用http的当时去爬取,不太方便,不推荐使用,不可以爬取https协议的url
// http
//   .get(url, (res) => {
//     let rawData = ""
//     res.on("data", (chunk) => {
//       rawData += chunk
//     })
//     res.on("end", () => {
//       try {
//         getData(rawData)
//       } catch (e) {
//         console.error(e.message)
//       }
//     })
//   })
//   .on("error", (e) => {
//     console.error(`出现错误: ${e.message}`)
//   })
// 使用axios的当时去爬取,非常方便,可以爬取https协议的url
axios
  .get(url)
  .then(function (response) {
    try {
      console.log(response)
      getData(response.data)
    } catch (e) {
      console.error(e.message)
    }
  })
  .catch(function (error) {
    // handle error
    console.log(error)
  })

function getData(data) {
  //将获取到的html结构赋值给$
  const $ = cheerio.load(data)
  var aBox = $(".info_list2 li")
  console.log(aBox)
  var arr = []
  aBox.each((index, item) => {
    try {
      var key = $(item).find("span").text()
      var val = $(item).find("strong").text()
    } catch (error) {
      console.log(error)
    }
    arr.push({
      key,
      val,
    })
  })
  fs.writeFile(__dirname + "/content.txt", JSON.stringify(arr), (err) =>
    console.log(err)
  )
  console.log(arr)
}

运行完这个js文件之后,就会发现活了一个文件,这个问家里放置的就是爬取到的内容:
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白嫖leader

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值