全网最全爬取-b站爬取弹幕+评论之js逆向与xml降本增效

🌟 ❤️

作者:yueji0j1anke

首发于公号:剑客古月的安全屋

字数:801

阅读时间:    10min

声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。合法渗透,本文章内容纯属虚构,如遇巧合,纯属意外

一.总体概述

js逆向

最近被迫又打比赛了,属于是比赛等级一高就得重构一下子,准备凑齐几百万评论进行模型训练,这次盯上b站

先上效果图

爬取过程的日志记录

image-20240524145636929

image-20240524145649799

image-20240524145705513

弹幕结果

image-20240524145748844

评论结果

image-20240524145820440

目前加入了日志、多线程模块,在启动主程序前只需要在config下填入要爬取的视频即可

image-20240524150337268

二.爬虫过程

首先爬弹幕

image-20240524150427597

点击f12即可出现惊喜

但我发现这里的弹幕大多数是按照时间分类的,根本不可能提取到像我之前展示的效果,于是我仔细分析js,得出了其的弹幕其实还映射到了xml文件上的,爬这个xml文件大幅度就可以降本增效,这里就不泄露机密了,有兴趣的可以找我私聊。

其次爬评论,老生常谈了

image-20240524150655523

在评论区疯狂的下拉后即出现了该条请求,纵观全网好像并没有关于评论的翻页爬取,究极原因是因为翻页逻辑并不好找,并且涉及到了js逆向

image-20240524150750677

wts就是时间戳,w_rid一看就是md5了,所以打断点

全区搜索一下,都给他打上,然后加载评论

image-20240523214307650

image-20240523101459479

image-20240523214255591

image-20240524100605048

最后发现是根据我们的param与一个静态密钥组合而成,随后生成md5值(大过程略掉,避免小破站找我麻烦)

image-20240524150957318

三.后续

接口没有限制,爬了大概两百多万份,美滋滋了,接下来就是做情感分析,词云图和可视化入库等操作了~

目前已经爬取了x音,小x书,某乎

原文链接 爬虫实训-b站爬取弹幕+评论百万之js逆向与xml降本增效

如果对项目有兴趣的小伙伴可以关注公众号 剑客古月的安全屋 获取联系方式进行私聊~

app逆向js逆向是两种不同的技术方法。app逆向主要是指对安卓应用程序的逆向工程,通过反编译、分析、修改应用程序的代码和功能。在app逆向过程中,常用的工具包括jadx反编译工具、JEB反编译工具、Frida之Hook工具、IDAPro反汇编工具等。可以通过这些工具来分析应用程序的逻辑、修改参数和功能等。 而js逆向主要是指对JavaScript代码的逆向工程,通过分析和解密JavaScript代码,获取其中的关键信息。在js逆向过程中,常用的工具包括查壳工具、加密解密工具、鬼鬼js加密浏览器、Python的execjs库等。可以通过这些工具来解密加密的JavaScript代码、分析代码逻辑以及调试代码等。 所以,app逆向主要是对安卓应用程序进行逆向分析和修改,而js逆向主要是对JavaScript代码进行解密和分析。这两种逆向方法在实际应用中可以结合使用,以达到更好的逆向效果。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [APP逆向工具-js调试](https://blog.csdn.net/b806071099/article/details/115553351)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [suning易购商城app api_sign参数逆向解析 最新现可用_x_req_block_加密 解密sign等参数](https://download.csdn.net/download/qq_40609990/85586243)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Android逆向基础入门](https://blog.csdn.net/weixin_43411585/article/details/122503411)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值