nodejs 爬虫

最新推荐文章于 2024-07-14 20:20:34 发布

Henry2509885

最新推荐文章于 2024-07-14 20:20:34 发布

阅读量499

点赞数

分类专栏： node 文章标签：爬虫 nodejs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ben617822642/article/details/75352544

版权

node 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一个 nodejs 的爬虫示例，此处用于抓取 hexo 所有主题，并排序输出关注（star）排行

代码

https://github.com/henry-fighting/nodejs-crawler

使用方法

安装依赖包 npm install
执行指令 node server.js
到浏览器访问 localhost:3000

背景

玩 hexo 时苦于找不到好的主题，上知乎一搜，有人通过爬虫抓取了所有主题的排行版，但发帖时间是 2015 年的，已经过期很久。人家可以爬虫，我也可以，所以作死的开启了爬虫之路

工作内容

访问 hexo 主题页: https://hexo.io/themes/
抓取所有主题的名字和 github 链接
访问所有主题的 github 链接，抓取 star 数
将所有主题对 star 进行排序，并输出到页面

启发

1. request VS SuperAgent

一开始按照【参考资料1】使用 SuperAgent，发现爬虫非常慢，导致浏览器直接超时不访问了。还以为是 github 慢，开户了科学上网工具，效果一般。不得不亲自“爬虫”，访问 github 页面。实际上，页面反应很快，或者说 document 加载很快，是其他资源加载慢了。SuperAgent 估计是等到页面 loaded 了之后才返回数据。
所以，有没有工具像 linux 里的 curl 合集，可以只请求 document 呢？百度下来找到了 requrest，请求确实快了很多，问题解决。

那是不是说 request 就比 SuperAgent 好呢？分情况。如果爬虫的数据在 document 里，用 request 可以明显加快爬虫效率；如果爬虫的数据是页面 AJAX 请求得到的，就需要等到页面加载完再爬虫，此时就需要 SuperAgent 了。

2. 事件处理与函数

第一次看到事件时，一直以为事件就和函数一样，都是执行一项任务。接触爬虫后发现，事件的真正作用在异步（异步并非并发）！！

刚开始开发爬虫时用的是函数，发现爬虫一直是爬完一个再爬另一个，效率非常慢（函数是顺序执行的）。这里才理解爬虫例子中使用事件不是没有原因的，异步才是使用 nodejs 爬虫最大的好处。

参考资料

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nodejs 爬虫

一个 nodejs 的爬虫示例，此处用于抓取 hexo 所有主题，并排序输出关注（star）排行代码https://github.com/henry-fighting/nodejs-crawler使用方法安装依赖包 npm install执行指令 node server.js到浏览器访问 localhost:3000背景玩 hexo 时苦于找不到好的主题，上知乎...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。