我想要完成春季泰山景区评论的一个LDA主题模型,中间遇到很多问题,当成功生成html的时候,我感觉看到希望了,但是我发现它生成的图有问题,它没有显示中文。
我的原代码:
import os
import pandas as pd
from gensim.corpora import Dictionary
from gensim.models import LdaModel
import pyLDAvis.gensim
if __name__ == '__main__':
# 设置临时文件夹路径
os.environ["JOBLIB_TEMP_FOLDER"] = "/tmp"
# 读取 CSV 文件
data = pd.read_csv("../数据/季节评论数据/春季分词后评论数据.csv")
# 获取分词列数据
documents = data['分词'].apply(lambda x: x.split())
# 创建词典
dictionary = Dictionary(documents)
# 创建词袋模型
corpus = [dictionary.doc2bow(doc) for doc in documents]
# 指定主题数量
num_topics = 2
# 训练 LDA 模型
lda_model = LdaModel(corpus, id2word=dictionary, num_topics=num_topics, passes=20)
# 打印主题词分布
for topic in lda_model.print_topics(num_words=5):
print(topic)
# 可视化主题模型结果
vis = pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)
# 保存可视化为 HTML 文件
html_content = pyLDAvis.prepared_data_to_html(vis)
with open('spring_lda_2.html', 'w', encoding='utf-8') as f:
f.write('<meta charset="UTF-8">\n')
# 添加字符编码元标记
f.write(html_content)
# 直接显示在 notebook 中
pyLDAvis.display(vis)
我检查的好多地方,就是不知道什么原因造成的,求大佬们帮帮忙:
我看别人的LDA可视化这里都有关键词和标注,为啥我的没有显示啊