目录
赛题背景
赛题以网络舆情分析为背景,要求选手根据用户的评论来对品牌的议题进行数据分析与可视化。通过这道赛题来引导常用的数据可视化图表,以及数据分析方法,对感兴趣的内容进行探索性数据分析。
赛题数据
数据源: earphone_sentiment.csv,为10000+条行业用户关于耳机的评论
链接:https://pan.baidu.com/s/1wlHzYVi2QO9xGfisD-al8A?pwd=myfb
提取码:myfb
1、导入数据分组
#导入模块
# _*_ coding:utf-8 _*_
import pandas as pd
import numpy as np
from collections import defaultdict
import os
import re
import jieba
import codecs
data=pd.read_csv("earphone_sentiment.csv")
data.head(10)
s1 = data[data['sentiment_value']==1]
s2 = data[data['sentiment_value']==0]
s3 = data[data['sentiment_value']==-1]
print(s2['content'])
1 这只HD650在1k的失真左声道是右声道的6倍左右,也超出官方规格参数范围(0.05%),看... 3 bose,beats,apple的消費者根本不知道有曲線的存在 5 我觉得任何人都可以明确分别高端耳机之间的区别,不用出声都可以,毕竟佩戴感不一样,这还没法做到盲听 6 听出区别是一方面,听出高低的层次要求就更高了。 7 有没有人能从10条电源线里,听出最贵的是哪条? ... 17170 能把HD650推的高频刺耳,这得是什么奇葩系统,按说不至于啊 17172 hd800爆皮正常,换根线就没这种忧虑了 17173 自己焊接一下就行了,话说我820原线全新,800s原线99新,放盒子里没动了 17174 所以趁着还没爆,赶紧出手。 17175 sommer黑参考自己diy两米线,成本600左右,吊打原线 Name: content, Length: 12210, dtype: object
2、文本清洗
停顿词文档下载链接:
链接:https://pan.baidu.com/s/1jXV_aHcbQrWES78FoIhU-g?pwd=bceb
提取码:bceb
with open('stop_word/HGD_StopWords.txt','r',encoding='utf-8') as f:
stopwords=set([line.replace('\n','')for line in f])
f.close()
#加载用户自定义词典
segs=data['content']
def clean_data(content):
words =' '
for seg_text in content:
seg_text=jieba.cut(