8分钟完成NodeJs爬虫,把JRS小姐姐全部看个遍

这篇博客介绍了如何使用NodeJS和相关库爬取JRS论坛爆照区的帖子数据,包括帖子标题、头像、用户ID和正文图片等信息。作者分析了网页结构,找到了分页和数据提取的规律,然后编写了简单的爬虫代码,最终将抓取的数据存储为JSON对象。请注意,本文仅供学习交流,不应用于非法或不道德的目的。
摘要由CSDN通过智能技术生成

本文讲的是利用nodejs以及相关库,爬取JRS爆照区内的爆照贴,并保存相关数据到本地。

 

 

依赖选择

const superagent = require('superagent');  
//nodejs里一个非常方便的客户端请求代理模块
const cheerio = require('cheerio'); 
//Node.js 版的jQuery
const async = require('async'); 

const fs = require('fs');
//fs操作IO
const url = require('url');
//url模块

 

 

初步准备

既然是要爬取网站内容,那我们就应该先去看看网站的基本构成

选取的是BXJ作为目标网站,想要去爬取爆照区的前5页的帖子里的数据

 

分析页面

要爬取前5个分页的内容,就要先找到分页的规律

先进入自行查看分页规律

爆照区第一页

爆照区第二页

爆照区第三页

可以看出,页面都是以  https://bbs.hupu.com/selfie-  加上1/2/3/4/5 作为分页

找到了分页规律,继续去第一页找帖子入口

页面结构如下:

 

可以看到,每个class为titlelink下的第一个a标签元素是帖子的路径

再进入到帖子内部

 

可以发现相关数据都是有对应的关系的,以下我总结一下

标题:bbs-hd-h1>h1

头像:headpic:first-child>img

用户ID:j_u

正文图片:quote-content>p>img

ok,有了以上这些信息,可以开工了。

 

开始编码

const superagent = require('superagent&
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值