nodejs实现的爬虫，从百度贴吧爬取小说

最新推荐文章于 2022-08-01 16:02:02 发布

小迪的博客

最新推荐文章于 2022-08-01 16:02:02 发布

阅读量1.3k

点赞数

分类专栏： nodejs 文章标签：爬虫 nodejs

本文链接：https://blog.csdn.net/u014374031/article/details/54586861

版权

nodejs 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

程序应该被用来改变生活

每天都得来回坐地铁上下班，无聊的时候喜欢看些小说，还只看至尊系的。以前老用微信读书，现在读书送的书券都花完了，作为一名程序猿怎么可能去花钱买书券读书。所以我想了写个爬虫爬小说的想法。

原理图

github项目地址: networkReptile
程序依赖

superagent  --发送http请求
cheerio  --分析请求得到的html
node-schedule --定时运行爬虫
mongoose  --将爬到的最终数据存入mongo

networkReptile----connectDB //数据库代码
|---node_modules
|---tools //工具类
|---config.js //配置文件
|---networkReptile.js //主程序
|---package.json //依赖包
|---result.txt //存储爬到的html
|---README.md //使用说明

看程序之前，请务必看下cnodejs社区的nodejs入门的lession5、lession6，详情请见注释，请看代码注释。

小迪的博客

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
nodejs实现的爬虫，从百度贴吧爬取小说

程序应该被用来改变生活每天都得来回坐地铁上下班，无聊的时候喜欢看些小说，还只看至尊系的。以前老用微信读书，现在读书送的书券都花完了，作为一名程序猿怎么可能去花钱买书券读书。所以我想了写个爬虫爬小说的想法。原理图 github项目地址: networkReptile程序依赖superagent --发送http请求cheerio --分析请求得到的htmlnode-schedu
复制链接

扫一扫