由于LDA是一个无监督机器学习模型,需要手动输入其主题数,如果主题选择不好,很可能导致最后的结果失真,困惑度(Perplexity)和主题一致性(Coherence)是评估主题模型性能的两个重要指标
一、困惑度(Perplexity)
定义:在信息论中,困惑度用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型,即比较两者在预测样本上的优劣。具体来说,困惑度是句子的概率的倒数,表示对于一篇文章,模型有多不确定它是属于某个主题的。因此,困惑度越低,表示模型对句子的预测越准确,即句子越符合语言的规律。
二、主题一致性(Coherence)
定义:主题一致性是衡量主题模型生成的主题质量的一个重要指标。它反映了主题内部词汇之间的语义关联程度和主题的可解释性。更高的一致性分数表示更好的可解释性,意味着主题更有意义、语义上更连贯。
小结:困惑度越低越好,主题一致性越高越好