图片源自网路
要说近期最火的国产剧,非《隐秘的角落》不可。该剧改编自紫金陈的推理小说《坏小孩》,讲述了沿海小城的三个孩子在景区游玩时,无意拍摄记录了一次谋杀,他们的冒险也由此展开。
自开播以来,《隐秘的角落》热度就居高不下,身边的朋友,网友都在议论剧情。“一起去爬山吗”“还有机会吗”之类的梗和表情包也相应诞生,如此高频率的提及,不禁让我对这部剧产生了好奇。
我利用假期把剧过了一遍,在看的过程中,发现大家在弹幕上的讨论异常激烈。俗话说:“弹幕往往比剧更精彩”,为了了解大家在讨论什么,也为了让精彩延续下去,我用python分析了20万条+的弹幕。
01
爬虫
爱奇艺的弹幕数据是以.z形式的压缩文件存在的,先获取tvid列表,再根据tvid获取弹幕的压缩文件,最后对其进行解压及储存。代码如下,修改后实现分集爬取所有弹幕
def get_data(tv_name,tv_id):
url = 'https://cmts.iqiyi.com/bullet/{}/{}/{}_300_{}.z'
datas = pd.DataFrame(columns=['uid','contentsId','contents','likeCount'])
for i in range(1,20):
myUrl = url.format(tv_id[-4:-2],tv_id[-2:],tv_id,i)
print(myUrl)
res = requests.get