3. 分析好评与差评的关键信息
依靠绘制词云图,来分析好评与差评的关键信息的区别
数据预处理
依靠上一篇爬取到的csv文件,来进行分析,首先导入文件,重点是短评正文的信息。
首先是使用结巴库来进行分词,然后去除停用词(停用词是网上公开的,可以自己去找。
代码:
import pandas as pd
import jieba
data = pd.read_csv("doubanliulangdiqiu.csv", encoding='GB18030') # 读取数据
with open('stopword.txt','r') as f:
stopWords = f.read() # 读取停用词
stopWords = ["\n",""," "]+ stopWords.split() # 把可能用的停用词加载进去
data_cut = data['短评正文'].