转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html
困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:
perplexity=exp^{ - (∑log(p(w))) / (N) }
其中,P(W)是指的测试集中出现的每一个词的概率,具体到LDA的模型中就是P(w)=∑z p(z|d)*p(w|z)【z,d分别指训练过的主题和测试集的各篇文档】。分母的N是测试集中出现的所有词,或者说是测试集的总长度,不排重。
因而python程序代码块需要包括几个方面:
1.对训练的LDA模型,将Topic-word分布文档转换成字典,方便查询概率,即计算perplexity的分子
2.统计测试集长度,即计算perplexity的分母
3.计算困惑度
4.对于不同的Topic数量的模型,计算的困惑度,画折线图。
python代码如下:
1 # -*- coding: UTF-8-*- 2 import numpy 3 import math 4 import string 5 import matplotlib.pyplot as plt 6 import re 7 8 def dictionary_found(wordlist): #对模型训练出来的词转换成一个词为KEY,概率为值的字典。 9 word_dictionary1={} 10 for i in xrange(len(wordlist)): 11 if i%2==0: 12 if word_dictionary1.has_key(wordlist[i])==True: 13 word_probability=word_dictionary1.get(wordlist[i]) 14