[ 自嗨笔记#2] 微博疫情舆情分析—舆情分析部分
利用前面抓取的信息,开始分析,这里可以说都是看到大佬的文章,模仿加上自己的想象加工,确实不太了解实际业务需求,如果有业内朋友看到,欢迎帮我指正,也欢迎大家帮我出出主意,有时间会更新进文章里
Previously![ 自嗨笔记#1] 微博疫情舆情分析—爬取部分
一、观察数据,整理
这里评论2200条非空,其他的为2257条非空,估计是用表情评论的被过滤了,其他目前看不出问题
二、建立需求
- 微博正文词云,以及评论词云
- 利用snowNLP,情感分析
- 尝试利用已有信息,挖掘深度规律
三,代码实现
- 正文词云
- 评论词云
- snowNLP分析
def snownlp_c(element):
try:
sn=SnowNLP(element)
return round(sn.sentiments,1)
except:
pass
comment['snownlp']=comment['评论正文'].transform(snownlp_c)-0.5 #以0.5为分界线,处理为[-0.5,0.5]的区间,0.5为正向
# snowNlp
a = comment.groupby(by=['snownlp'])['评论正文'].count().reset_index()
print(a