python爬取b站弹幕分析_如何爬取b站弹幕文件

最新推荐文章于 2021-10-29 23:35:25 发布

weixin_39933026

最新推荐文章于 2021-10-29 23:35:25 发布

阅读量272

点赞数

文章标签： python爬取b站弹幕分析

本文讲述了如何使用Python开发者工具分析网页结构，发现并抓取滚动播放的弹幕文件（通常为XML格式），介绍了正则表达式和直接抓取网页两种方法，强调了urllib2和BeautifulSoup的健壮性。作者还分享了一段Python代码示例，用于抓取弹幕文本并保存。最后，推荐了一个社会科学研究方法暑期研修班的活动信息。

摘要由CSDN通过智能技术生成

我们知道编写一个爬虫之前最重要的是进行网页结构的分析，确定你要抓取的部分是属于网页结构的哪一部分。以“你绝对没听过的梁朝伟唱歌一开口就苏了可惜被梁家辉开腔了”为例子，打开谷歌浏览器的开发者工具，分析网页结构。

我们会发现，弹幕列表一栏对应的网页结构并不是我们想抓取的弹幕文件，那么弹幕文件在哪那？很简单，由于弹幕是滚动播放的，所以有一个快速找到弹幕文件的方法。在开发者工具中点击network。

重新加载页面（一定要刷新一下），在搜索里输入xml(弹幕一般为xml文件)

在新的窗口将其打开，来看看到底是不是我们要找的弹幕文件

确实是，分析一下这个弹幕文件的网址，图中框起来的是视频的cid号，并不是av番号。所以有两种抓取方式，一种是用正则表达式匹配cid，一种是直接抓取整个网页的方式。

我确实尝试了两种方式，正则表达式是借鉴别人的，但是代码只能用运行两次，就会被封号（因为这种方法要写代理）。我就自己写了一个直接抓取网页的代码，比较简单也没有风险，唯一麻烦的是爬取弹幕之前要先查找出cid。这就再次说明了，在写爬虫的时候urllib2和BeautifulSoup的方式要比正则表达式更健壮。下面直接上代码（python3.6环境，抓取弹幕文本并将其写入名为text30的文件中）

今天的分享就是这些了，下次将继续分享利用python进行数据分析和制作词云！比心

以人文之情怀

以学术为志业

···········

2018年最值得期待的活动：

三位教育部青年长江学者领衔，邀你深度研修社会科学研究方法，2018前沿社会科学研究方法暑期高级研修班（点击）正在火热报名中，按照报名顺序优先安排座位哦！

扫码报名

weixin_39933026

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。