新手的node爬虫初体验

最新推荐文章于 2024-09-17 19:26:23 发布

weixin_34195364

最新推荐文章于 2024-09-17 19:26:23 发布

阅读量122

点赞数

文章标签：爬虫 javascript ViewUI

原文链接：https://segmentfault.com/a/1190000009598820

版权

原文博客：羞羞的node爬虫

前言

学了一阵子node，除了用 express 写东西，就没怎么做过东西
突然就想写个爬虫来玩一玩，而且还是爬一些羞羞的东西

使用模块

SuperAgent 是个 http 方面的库，可以发起 get 或 post 请求。
cheerio 大家可以理解成一个 Node.js 版的 jquery，用来从网页中以 css selector 取数据，使用方式跟 jquery 一样一样的
fs 用于读写文件的一个依赖包
superagent-logger 用来打印http请求信息

流程

首先，我们要爬取得网址是： http://www.hacg.wiki/wp/anime...
其次，我们要爬取得目标：以以下格式保存在 txt 中

再其次，分析我们要爬取的内容分布：打开控制台

title, id, tags 如下
爬取地址是： "http://www.hacg.wiki/wp/anime.html/page/" + i

time, seed 如下
爬取地址是： 'http://www.hacg.wiki/wp/' + id + '.html'

再再其次，我们可以从上面看出，要爬 time 和 seed 前提是把前边的 id 爬取到，
因此要先爬取 id ，再利用 id 拼凑 seed 所在的 url

最后，就可以来愉快地爬取了

知识点

还是有复习到一些知识
具体superagent,cheerio看上面我提供的 api模块文档链接

利用promise管理异步函数

当我第一次按正常同步思维用 superagent 先爬取 id 所在 url，
再调用下面使用 superagent 的函数获取 seed时，
我发现获取的 seed 一直是空的。
后来才意识到这是异步函数，不会按顺序进行。
因此我使用了 ES6 的 promise 控制先执行爬取 id
爬取完 id 再爬取 seed