目标
爬取B站弹幕(今天是2020/8/31,最近的时间点以下方法肯定行得通)
分析网页
关于B站的弹幕,其实一个系列视频的所有弹幕是可以在其中任何一集视频就能得到的,所以这篇文章的目的并不完全算是python教程,而只是告诉大家怎么找弹幕在哪以及生成词云图。
以“小甲鱼”的python教程系列为例,我们选择打开网页源代码:
我们再根据cid号打开https://api.bilibili.com/x/v1/dm/list.so?oid=6534573(这是随便挑的一个cid对应的号,验证一下弹幕到底在不在那)
事实上,所有弹幕都是从b站后台另一个网页加载到当前集数的视频中的。我们看这些cid号,每个cid后都有对应的一个编号。上图是p=4第四集的网页源代码,可以发现cid这一块根本不会随着p号改变而改变