node爬虫框架_node 爬虫入门实例,简单易懂

本文面向初级前端开发者,通过一个Koa爬虫项目,介绍如何使用Node.js进行网页抓取。讲解了启动Koa服务、静态与动态抓取、数据处理等步骤,并提供了配置和通用类库的示例。
摘要由CSDN通过智能技术生成

5af6ace5-352a-eb11-8da9-e4434bdf6706.png

前言

本文介绍一个 koa 的爬虫项目,受众对象为初学前端不久的小伙伴,通过这个项目能对 node 爬虫有一个简单的认识,也能自己动手写一些简单的爬虫。项目地址:

Fe-Icy/firm-spider​github.com
5bf6ace5-352a-eb11-8da9-e4434bdf6706.png

启动 koa 服务

Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架​koa.bootcss.com
5cf6ace5-352a-eb11-8da9-e4434bdf6706.png

koa 是基于 nodejs 平台的新一代 web 开发框架,使用 koa 启动 node 服务也非常简单,三行代码就能启动一个 http 服务

const Koa = require('koa')
const app = new Koa()
app.listen(8080)

怎么样,是不是看一眼就会,关于 koa 的更多内容可以学习[官方文档](Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架),只要你能灵活运用 nodejs,koa 也能分分钟上手。

爬虫分析

️爬虫的目的是什么?其实爬虫的目的很简单,就是需要在一个站点中抓取到我们想要的数据。不管用什么方式,用什么语言,只要能把数据抓回来,就达到我们的目的了。但是通过分析站点我们发现,有些网站是静态的,前端无法查看网站中的 api 请求,所以只能通过分析页面去提取数据,这种叫静态抓取。有的页面是前端请求接口渲染数据的,这种我们可以直接拿到 api 地址,而在爬虫中去模拟请求,这种叫动态抓取,基于此,我简单设计了一个通用的爬虫。

全局配置

为了方便,我在全局配置了一些参数方法

const path = require('path')
const base = require('app-root-dir')

// 全局的 require 方式
global.r = (p = base.get(), m = '') => require(path.join(p, m))

// 全局的路径配置
global.APP = {
    
  R: base.get(),
  C: path.resolve(base.get(), 'config.js'),
  P: path.resolve(base.get(), 'package.json'),
  A: path.resolve(base.get(), 'apis'),
  L: path.resolve(base.get(), 'lib'),
  S: path.resolve(base.get(), 'src'),
  D: path.resolve(base.get(), 'data'),
  M: path.resolve(base.get(), 'model')
}

为了统一管理,我把所有要抓取的页面地址写到一个配置文件中:

// 所有目标
const targets = {
    
  // 技术社区
  juejinFront: {
    
    url: 'https://web-api.juejin.im/query',
    method: 'POST',
    options: {
    
      headers: {
    
        'X-Agent': 'Juejin/Web',
        'X-Legacy-Device-Id': '1559199715822',
        'X-Legacy-Token': 'eyJhY2Nlc3NfdG9rZW4iOiJoZ01va0dVNnhLV1U0VGtqIiwicmVmcmVzaF90b2tlbiI6IkczSk81TU9QRjd3WFozY2IiLCJ0b2tlbl90eXBlIjoibWFjIiwiZXhwaXJlX2luIjoyNTkyMDAwfQ==',
        'X-Legacy-Uid': '5c9449c15188252d9179ce68'
      }
    }
  },
  // 图片网站
  pixabay:  {
    
    url: 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值