开篇
先做一些简单的评论分析吧,大部分还是借助于不同的python工具,不得不说很多中文的基本任务还是做得效果比较一般的,毕竟中文的复杂程度可不是英文可以比拟的,这篇就是简单地生成一个词云,是以词频为主的,姑且把高频词当做关键词吧,其实你看了下面我分析oppo r15的结果,你就会发现,其实还是有那么一点靠谱的。可能下面的内容比我开篇的废话还要少。
词云的生成
数据集的介绍在我的这篇博客,下载链接也放出来了,大家如果不想浪费积分,可以给我留言,我看到后会发送到你的邮箱。
import json
import jieba
import jieba.analyse
import string
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from scipy.misc import imread
#color_mask = imread('data/tim.jpeg')
stopwords = []
stopword = open('