LDA可视化最后一步
pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)
运行pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)时
出现错误UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u5b59’ in position 18: ordinal not in range(128)
求助了一下chitGPT
这个错误可能是因为在准备可视化之前没有正确地设置默认编码。尝试在代码开头添加以下行:
import sys
reload(sys)
sys.setdefaultencoding('utf8')
如果这不起作用,您可以尝试将字典和语料库中的文本转换为ASCII编码。在创建字典和语料库时使用以下代码:
dictionary = corpora.Dictionary([doc.encode('ascii', 'ignore').split() for doc in documents])
corpus = [dictionary.doc2bow(doc.encode('ascii', 'ignore').split()) for doc in documents]
这将忽略所有非ASCII字符并将文本转换为ASCII编码。