目录
1数据说明
1.1 数据说明
本次实验用到的数据是《Running Man》视频的评论数据和弹幕数据。
(1)评论数据格式:
mid-uname-sex-ctime-rtime-review-like-rcount-date-time-week-score
用户id-用户名-性别-评论时间戳-转化后的时间-评论内容-点赞数-回复数-评论日期-评论时间点-评论星期-评论情感得分
(2)弹幕数据格式:
second-ctime-rtime-danmu
弹幕发在视频的第几秒-弹幕时间戳-转化后的时间-弹幕内容
1.2 数据来源
本次实验所有数据均从bilibili爬取和处理得到。(b站的评论和弹幕数据比较容易爬取,这个也是网上搜到的思路)
(1)来源
评论数据来源于以下三个视频(17、18、19年RM节目的评论)
https://www.bilibili.com/video/av12551207
https://www.bilibili.com/video/av18089528
https://www.bilibili.com/video/av40112794
弹幕数据来源于以下视频(10、11、12、17、18、19年RM节目合集,弹幕数据不用上述三个视频的弹幕原因是上述所有视频每一集弹幕数都是最大8000,不能通过弹幕数来比较每集节目)https://www.bilibili.com/video/av38441196
(2)获取方法
①评论获取 :16040条(2019/6/10获得)
url= ‘https://api.bilibili.com/x/v2/reply?type=1&oid=18089528&pn=’ + str(i) + ‘&sort=0’ 关键是获取视频的oid,其实就是每个视频合集的av号,在上述1.2(1)来源中可见。可以爬取出用户id-用户名-评论时间戳-评论内容-点赞数-回复数
②弹幕获取:252个视频弹幕,共457020条(2019/6/16获得)
url= ‘https://comment.bilibili.com/’ + cid + '.xml’可以爬取出弹幕出现在视频第几秒-弹幕内容。关键是获取视频合集中每个视频的cid。
cid在合集页面源代码中,在爬取弹幕的视频合集中共252集(截止到2019/6/20)