java弹幕爬取,手把手教你爬取B站弹幕(超详细)!

本文详细介绍了如何使用Python爬取B站视频的弹幕。通过分析网页请求,发现弹幕数据存在于`https://comment.bilibili.com/视频ID.xml`的URL中。通过构造该URL,利用正则表达式提取视频ID,再用requests库获取XML数据,最后使用XPath解析弹幕内容。提供的代码示例展示了完整的爬虫流程。
摘要由CSDN通过智能技术生成

效果

输入要爬取的视频的BV号即可爬取该视频的弹幕。

20200325153353951203.png

过程

基本思路

基本的思路很简单,还是老步骤:

1、构造爬取的url

2、解析返回的数据

3、使用json或Xpath或正则表达式提取数据

4、保存数据

寻找url地址

第一步

刚开始还是从网页版中寻找url地址,结果请求很多,找了半天也没有找到

20200325153354220717.png

第二步

于是我们可以访问一下手机版的页面,而根据常识,弹幕这种东西一般是通过ajax来请求的,所以我们过滤一下,只看异步请求。

20200325153354613270.png

此时请求就变得少了很多,但是依然没有找到我们需要的弹幕数据,此时才发现我们并没有点击播放视频。

第三步

弹幕是在视频播放的过程中播放的,理所当然只有当我们播放视频并且打开弹幕后才会请求弹幕

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值