8分钟完成NodeJs爬虫，把JRS小姐姐全部看个遍

最新推荐文章于 2024-07-26 08:57:17 发布

置顶

Lucio_cn

最新推荐文章于 2024-07-26 08:57:17 发布

阅读量9.2w

点赞数 25

分类专栏： JavaScript NodeJs Web技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lizhipeng123321/article/details/79804041

版权

这篇博客介绍了如何使用NodeJS和相关库爬取JRS论坛爆照区的帖子数据，包括帖子标题、头像、用户ID和正文图片等信息。作者分析了网页结构，找到了分页和数据提取的规律，然后编写了简单的爬虫代码，最终将抓取的数据存储为JSON对象。请注意，本文仅供学习交流，不应用于非法或不道德的目的。

摘要由CSDN通过智能技术生成

本文讲的是利用nodejs以及相关库，爬取JRS爆照区内的爆照贴，并保存相关数据到本地。

依赖选择

const superagent = require('superagent');  
//nodejs里一个非常方便的客户端请求代理模块
const cheerio = require('cheerio'); 
//Node.js 版的jQuery
const async = require('async'); 

const fs = require('fs');
//fs操作IO
const url = require('url');
//url模块

初步准备

既然是要爬取网站内容，那我们就应该先去看看网站的基本构成

选取的是BXJ作为目标网站，想要去爬取爆照区的前5页的帖子里的数据

分析页面

要爬取前5个分页的内容，就要先找到分页的规律

先进入自行查看分页规律

爆照区第一页

爆照区第二页

爆照区第三页

可以看出，页面都是以 https://bbs.hupu.com/selfie- 加上1/2/3/4/5 作为分页

找到了分页规律，继续去第一页找帖子入口

页面结构如下：

可以看到，每个class为titlelink下的第一个a标签元素是帖子的路径

再进入到帖子内部

可以发现相关数据都是有对应的关系的，以下我总结一下

标题：bbs-hd-h1>h1

头像：headpic:first-child>img

用户ID：j_u

正文图片：quote-content>p>img

ok，有了以上这些信息，可以开工了。

开始编码

const superagent = require('superagent&

最低0.47元/天解锁文章

关注

25
点赞
踩
88

收藏

觉得还不错? 一键收藏
14
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 14

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。