前排 @皇族电子竞技俱乐部
==================================
S7中RNG对阵SKT,想必是全世界LOL玩家关注的重点。在比赛开始前,使用小葫芦把斗鱼S7直播间的弹幕都抓下来,想着做一小点分析,看看会得出什么结论。
因为数据量和分析深度等原因,以下内容仅供娱乐观赏
1、数据采集
使用小葫芦采集2万多条弹幕数据,RNG对阵SKT斗鱼直播间的弹幕,最后得到约4万可用数据
2、中文分词
使用jieba分词,算法如下
基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法
简单处理之后,看起来是这样
顺便做个统计,看看都在说什么。不加停用词是这样的,全是 “666”
RNG和牛逼是出现最多的词语,同时也发现“卢本伟牛逼”
弱弱问一句“唐梦琼”是谁
下面是词云,Python的词云做不来不好看,所以我使用的工具 HTML5 Word Cloud
弹幕内容词云
用户昵称词云
3、情感分析
这里使用的是 isnowfy/snownlp。SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的。