node.js使用cheerio模块实现简易爬虫函数

文章展示了如何使用Node.js的http、https和cheerio库来爬取非前后端分离模式下,如BOSS直聘网站的数据。首先通过npm初始化项目,安装cheerio模块,然后创建服务器获取HTML内容,接着定义爬虫函数解析并提取所需信息。示例中爬取了职位名称、薪资和地点。
摘要由CSDN通过智能技术生成

       有些网站的部分模块并不是采用前后端分离模式开发的,而是后端直接将模板渲染在网页上的,这时候我们就可以使用爬虫技术爬取到这些信息。

       首先使用 npm init初始化项目生成package.json文件和node_modules文件夹,再使用npm i cheerio --save安装cheerio模块

       创建入口文件spider.js并引入cheerio模块,在spider.js中创建一个服务器并获取到网站的HTML信息,然后创建spider函数爬取这个网站的指定信息并返回给我们的服务器。

这里演示的是爬取BOSS直聘的信息

源代码:

const http = require('http');
const https = require('https');
const url = require('url');
const cheerio = require('cheerio');

// 创建返回json字符串格式的服务器
http.createServer((req, res) => {
  const curUrl = url.parse(req.url, true);
//   console.log(curUrl.query.callback);
  res.writeHead(200, {
    'Content-Type': 'application/json;charset=utf-8',
    'access-control-allow-origin': '*'
  })
  switch(curUrl.pathname) {
    case '/api/kunkun':
        // 调用函数,node作为客户端,去向BOSS拿数据,数据拿完,执行回调函数,
        httpsGet((data) => {
          res.end(spider(data));
        })
        break;
    default:
        res.end('404 Not Found')
  }
}).listen(3000)

// 转发BOSS数据
const httpsGet = (callback) => {
  let allData = '';

  https.get(`https://www.zhipin.com/chengdu/?sid=sem_pz_bdpc_dasou_title`, (res) => {
    // 以数据流的方式接收数据
    res.on('data', (chunk) => {
      // 一点点地接收
      allData += chunk;
    })

    // 数据接收完毕
    res.on('end', () => {
    //   console.log(allData);
      // 接收完毕,执行回调函数
      callback(allData)
    })
  })
}


// 简易爬虫函数,爬取BOSS直聘信息
const spider = (data) => {
   const $ = cheerio.load(data);
   const $dataList = $('.company-job-item');
   const boss = new Array();

   $dataList.each((index, val) => {
     boss.push({
       job: $(val).find('.name').text(),
       salary: $(val).find('.salary').text(),
       location: $(val).find('.job-text').text()
      //  required: $(val).find('.labels').text()
     })
   })
   
   console.log(boss);
   return JSON.stringify(boss);
}

效果:

 

 需要注意的是:要根据不同网站的协议来使用对应的模块,例如http和https

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值