node爬虫框架_node 爬虫入门实例，简单易懂

最新推荐文章于 2024-06-20 17:40:31 发布

weixin_39873325

最新推荐文章于 2024-06-20 17:40:31 发布

阅读量366

点赞数

文章标签： node爬虫框架

本文链接：https://blog.csdn.net/weixin_39873325/article/details/111679119

版权

本文面向初级前端开发者，通过一个Koa爬虫项目，介绍如何使用Node.js进行网页抓取。讲解了启动Koa服务、静态与动态抓取、数据处理等步骤，并提供了配置和通用类库的示例。

摘要由CSDN通过智能技术生成

前言

本文介绍一个 koa 的爬虫项目，受众对象为初学前端不久的小伙伴，通过这个项目能对 node 爬虫有一个简单的认识，也能自己动手写一些简单的爬虫。项目地址：

Fe-Icy/firm-spidergithub.com

启动 koa 服务

Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架koa.bootcss.com

koa 是基于 nodejs 平台的新一代 web 开发框架，使用 koa 启动 node 服务也非常简单，三行代码就能启动一个 http 服务

const Koa = require('koa')
const app = new Koa()
app.listen(8080)

怎么样，是不是看一眼就会，关于 koa 的更多内容可以学习[官方文档](Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架)，只要你能灵活运用 nodejs，koa 也能分分钟上手。

爬虫分析

️爬虫的目的是什么？其实爬虫的目的很简单，就是需要在一个站点中抓取到我们想要的数据。不管用什么方式，用什么语言，只要能把数据抓回来，就达到我们的目的了。但是通过分析站点我们发现，有些网站是静态的，前端无法查看网站中的 api 请求，所以只能通过分析页面去提取数据，这种叫静态抓取。有的页面是前端请求接口渲染数据的，这种我们可以直接拿到 api 地址，而在爬虫中去模拟请求，这种叫动态抓取，基于此，我简单设计了一个通用的爬虫。

全局配置

为了方便，我在全局配置了一些参数方法

const path = require('path')
const base = require('app-root-dir')

// 全局的 require 方式
global.r = (p = base.get(), m = '') => require(path.join(p, m))

// 全局的路径配置
global.APP = {
    
  R: base.get(),
  C: path.resolve(base.get(), 'config.js'),
  P: path.resolve(base.get(), 'package.json'),
  A: path.resolve(base.get(), 'apis'),
  L: path.resolve(base.get(), 'lib'),
  S: path.resolve(base.get(), 'src'),
  D: path.resolve(base.get(), 'data'),
  M: path.resolve(base.get(), 'model')
}

为了统一管理，我把所有要抓取的页面地址写到一个配置文件中：

// 所有目标
const targets = {
    
  // 技术社区
  juejinFront: {
    
    url: 'https://web-api.juejin.im/query',
    method: 'POST',
    options: {
    
      headers: {
    
        'X-Agent': 'Juejin/Web',
        'X-Legacy-Device-Id': '1559199715822',
        'X-Legacy-Token': 'eyJhY2Nlc3NfdG9rZW4iOiJoZ01va0dVNnhLV1U0VGtqIiwicmVmcmVzaF90b2tlbiI6IkczSk81TU9QRjd3WFozY2IiLCJ0b2tlbl90eXBlIjoibWFjIiwiZXhwaXJlX2luIjoyNTkyMDAwfQ==',
        'X-Legacy-Uid': '5c9449c15188252d9179ce68'
      }
    }
  },
  // 图片网站
  pixabay:  {
    
    url:

最低0.47元/天解锁文章

weixin_39873325

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
node爬虫框架_node 爬虫入门实例，简单易懂

前言本文介绍一个 koa 的爬虫项目，受众对象为初学前端不久的小伙伴，通过这个项目能对 node 爬虫有一个简单的认识，也能自己动手写一些简单的爬虫。项目地址：Fe-Icy/firm-spidergithub.com启动 koa 服务Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架koa.bootcss.comkoa 是基于 nodejs 平台的新一代 we...
复制链接

扫一扫