LDA主题提取+可视化分析（PyLDAavis）-CSDN博客

本文链接：https://blog.csdn.net/m0_58327216/article/details/124458149

文本评论分析包括很多步骤，本文讲述的是主题提取+结果可视化分析，“可视化分析部分”较多内容借鉴于这篇博文，大家可以去他那里看看，当然这位博主中也有一个问题我觉得很多小伙伴会遇到，我也是找了很多资料，最后好不容易搞定的，我会发在下面。

1、LDA主题提取——分词

import re
import jieba as jb
import gensim
from gensim import models
import pyLDAvis.gensim_models
from gensim import corpora
from gensim.models import LdaModel
from gensim.corpora import Dictionary
import codecs


def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords


# 对句子进行分词
def seg_sentence(sentence):
    sentence = re.sub(u'[0-9\.]+', u'', sentence)
    jb.add_word('光线摄影学院')  # 这里是加入用户自定义的词来补充jieba词典。
    jb.add_word('曾兰老师')  # 同样，如果你想删除哪个特定的未登录词，就先把它加上然后放进停用词表里。
    jb.add_wor