【数据分析】数据分析达人赛1:用户情感可视化分析

目录

赛题背景

赛题数据

1、导入数据分组

2、文本清洗 

3、绘制词云 

4、情感分析 (SnowNLP计算情感得分)

5、绘制不同情感值的柱形图

 6、不同主题下的情感得分柱形图

7、绘制不同情感词下的频数条形图

 8、绘制相关系数热力图 


赛题背景

赛题以网络舆情分析为背景,要求选手根据用户的评论来对品牌的议题进行数据分析与可视化。通过这道赛题来引导常用的数据可视化图表,以及数据分析方法,对感兴趣的内容进行探索性数据分析。

赛题数据

数据源: earphone_sentiment.csv,为10000+条行业用户关于耳机的评论

链接:https://pan.baidu.com/s/1wlHzYVi2QO9xGfisD-al8A?pwd=myfb 
提取码:myfb

1、导入数据分组

#导入模块
# _*_ coding:utf-8 _*_
import pandas as pd 
import numpy as np 
from collections import defaultdict
import os
import re
import jieba
import codecs

data=pd.read_csv("earphone_sentiment.csv")
data.head(10)

s1 = data[data['sentiment_value']==1]
s2 = data[data['sentiment_value']==0]
s3 = data[data['sentiment_value']==-1]

print(s2['content'])

1        这只HD650在1k的失真左声道是右声道的6倍左右,也超出官方规格参数范围(0.05%),看...
3                          bose,beats,apple的消費者根本不知道有曲線的存在
5         我觉得任何人都可以明确分别高端耳机之间的区别,不用出声都可以,毕竟佩戴感不一样,这还没法做到盲听
6                                  听出区别是一方面,听出高低的层次要求就更高了。
7                                  有没有人能从10条电源线里,听出最贵的是哪条?
                               ...                        
17170                       能把HD650推的高频刺耳,这得是什么奇葩系统,按说不至于啊
17172                                 hd800爆皮正常,换根线就没这种忧虑了
17173               自己焊接一下就行了,话说我820原线全新,800s原线99新,放盒子里没动了
17174                                        所以趁着还没爆,赶紧出手。
17175                       sommer黑参考自己diy两米线,成本600左右,吊打原线
Name: content, Length: 12210, dtype: object

 2、文本清洗 

停顿词文档下载链接:

链接:https://pan.baidu.com/s/1jXV_aHcbQrWES78FoIhU-g?pwd=bceb 
提取码:bceb

with open('stop_word/HGD_StopWords.txt','r',encoding='utf-8') as f:
    stopwords=set([line.replace('\n','')for line in f])
f.close()


#加载用户自定义词典
segs=data['content']
def clean_data(content):
    words =' '
    for seg_text in content:
        seg_text=jieba.cut(
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值