文本评论分析包括很多步骤,本文讲述的是主题提取+结果可视化分析,“可视化分析部分”较多内容借鉴于这篇博文,大家可以去他那里看看,当然这位博主中也有一个问题我觉得很多小伙伴会遇到,我也是找了很多资料,最后好不容易搞定的,我会发在下面。
1、LDA主题提取——分词
import re
import jieba as jb
import gensim
from gensim import models
import pyLDAvis.gensim_models
from gensim import corpora
from gensim.models import LdaModel
from gensim.corpora import Dictionary
import codecs
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
return stopwords
# 对句子进行分词
def seg_sentence(sentence):
sentence = re.sub(u'[0-9\.]+', u'', sentence)
jb.add_word('光线摄影学院') # 这里是加入用户自定义的词来补充jieba词典。
jb.add_word('曾兰老师') # 同样,如果你想删除哪个特定的未登录词,就先把它加上然后放进停用词表里。
jb.add_wor