Node.js 基础篇（六）：内置对象 http / https（3）爬虫（网络蜘蛛）

__畫戟__

已于 2022-02-10 18:02:18 修改

阅读量734

点赞数

于 2022-02-09 23:34:32 首次发布

本文链接：https://blog.csdn.net/qq_41887214/article/details/122851880

版权

Node.js 同时被 2 个专栏收录

44 篇文章 21 订阅

订阅专栏

http / https

5 篇文章 0 订阅

订阅专栏

通过爬虫自动获取网页内容，这里爬取 https://www.meizu.com 的手机📱信息，如下
在这里插入图片描述

爬取步骤

爬取内容
筛选内容
1. 服务端没有dom，但我们可以使用 cheerio 操作dom筛选数据，语法和 jQuery 基本一样

Node.js server.js

const http = require('http')
const https = require('https')
const cheerio = require('cheerio');

// 筛选数据
const filterData = (data) => {
  const $ = cheerio.load(data);
  const filterDataArr = []
  const arr = $('.section-phone-box .section-box-row .index-center-wrapper ul li')
  arr.each((index, el) => {
    console.log(index);
    const goodsName = $(el).find('.goods-name').text()
    const description = $(el).find('.goods-desc').text()
    const price = $(el).find('.goods-price').text()
    const goodsImg = $(el).find('.goods-img').data('src')
    const good = {
      goodsName,
      description,
      price,
      goodsImg,
    }
    filterDataArr.push(good)
  })
  console.log(filterDataArr);
}

const server = http.createServer((request, response) => {
  let data = ''
  https.get('https://www.meizu.com', (result) => {
    result.on('data', chunk => {
      data += chunk
    })
    result.on('end', () => {
      filterData(data)
    })
  })
})

server.listen(8080, () => {
  console.log('localhost:8080');
})