![5af6ace5-352a-eb11-8da9-e4434bdf6706.png](http://p01.5ceimg.com/content/5af6ace5-352a-eb11-8da9-e4434bdf6706.png)
前言
本文介绍一个 koa 的爬虫项目,受众对象为初学前端不久的小伙伴,通过这个项目能对 node 爬虫有一个简单的认识,也能自己动手写一些简单的爬虫。项目地址:
Fe-Icy/firm-spidergithub.com![5bf6ace5-352a-eb11-8da9-e4434bdf6706.png](http://p03.5ceimg.com/content/5bf6ace5-352a-eb11-8da9-e4434bdf6706.png)
启动 koa 服务
Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架koa.bootcss.com![5cf6ace5-352a-eb11-8da9-e4434bdf6706.png](http://p05.5ceimg.com/content/5cf6ace5-352a-eb11-8da9-e4434bdf6706.png)
koa 是基于 nodejs 平台的新一代 web 开发框架,使用 koa 启动 node 服务也非常简单,三行代码就能启动一个 http 服务
const Koa = require('koa')
const app = new Koa()
app.listen(8080)
怎么样,是不是看一眼就会,关于 koa 的更多内容可以学习[官方文档](Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架),只要你能灵活运用 nodejs,koa 也能分分钟上手。
爬虫分析
️爬虫的目的是什么?其实爬虫的目的很简单,就是需要在一个站点中抓取到我们想要的数据。不管用什么方式,用什么语言,只要能把数据抓回来,就达到我们的目的了。但是通过分析站点我们发现,有些网站是静态的,前端无法查看网站中的 api 请求,所以只能通过分析页面去提取数据,这种叫静态抓取。有的页面是前端请求接口渲染数据的,这种我们可以直接拿到 api 地址,而在爬虫中去模拟请求,这种叫动态抓取,基于此,我简单设计了一个通用的爬虫。
全局配置
为了方便,我在全局配置了一些参数方法
const path = require('path')
const base = require('app-root-dir')
// 全局的 require 方式
global.r = (p = base.get(), m = '') => require(path.join(p, m))
// 全局的路径配置
global.APP = {
R: base.get(),
C: path.resolve(base.get(), 'config.js'),
P: path.resolve(base.get(), 'package.json'),
A: path.resolve(base.get(), 'apis'),
L: path.resolve(base.get(), 'lib'),
S: path.resolve(base.get(), 'src'),
D: path.resolve(base.get(), 'data'),
M: path.resolve(base.get(), 'model')
}
为了统一管理,我把所有要抓取的页面地址写到一个配置文件中:
// 所有目标
const targets = {
// 技术社区
juejinFront: {
url: 'https://web-api.juejin.im/query',
method: 'POST',
options: {
headers: {
'X-Agent': 'Juejin/Web',
'X-Legacy-Device-Id': '1559199715822',
'X-Legacy-Token': 'eyJhY2Nlc3NfdG9rZW4iOiJoZ01va0dVNnhLV1U0VGtqIiwicmVmcmVzaF90b2tlbiI6IkczSk81TU9QRjd3WFozY2IiLCJ0b2tlbl90eXBlIjoibWFjIiwiZXhwaXJlX2luIjoyNTkyMDAwfQ==',
'X-Legacy-Uid': '5c9449c15188252d9179ce68'
}
}
},
// 图片网站
pixabay: {
url: