数据说明
本案例数据为电影《白蛇传·情》豆瓣短评数据:
其中,评分有:推荐、力荐、还行、较差、很差 五种,我们将推荐与力荐的评论归为“好评”,并赋值为1,将其余三种评论归为“中差评”,赋值为0:
#将评分转化为数值
data['评分'] = data['评分'].replace(['力荐','推荐','还行','较差','很差'],[1,1,0,0,0])
分词
对于评论文本数据的分析,最基础的就是分词,观察词频。分词的方法有很多,最常见的就是jieba分词:
#使用精确模式分词
def cut_word(word):
jieba.load_userdict('my_dict.txt')
cw = jieba.cut(word)
return list(cw)
#使用全模式分词
def cut_word_all(word):
jieba.load_userdict('