perplexity是一种信息理论的测量方法,b的perplexity值定义为基于b的熵的能量(b可以是一个概率分布,或者概率模型),通常用于概率模型的比较。
该部分内容可参考Perplexity(困惑度)、python下进行lda主题挖掘(三)——计算困惑度perplexity、python gensim里的log_perplexity得出的结果是困惑度吗?
可搜索到的资料都通过编程实现了困惑度的计算,不过gensim库其实自带了perplexity的计算模块,稍作修改即可返回模型困惑度。
对于困惑度的理解还十分有限,有待日后更新。
导入gensim库
from gensim.models import LdaModel
首先,导入gensim库的LdaModel模块。
然后,查看gensim\models\ldamodel.py源码。搜索perplexity。
def log_perplexity(self, chunk, total_docs=None):
"""Calculate and return per-word likelihood bound, using a chunk o