LDA主题数的确定基于sklearn和gensim两种方法

由于LDA是一个无监督机器学习模型,需要手动输入其主题数,如果主题选择不好,很可能导致最后的结果失真,困惑度(Perplexity)和主题一致性(Coherence)是评估主题模型性能的两个重要指标

一、困惑度(Perplexity)

定义:在信息论中,困惑度用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型,即比较两者在预测样本上的优劣。具体来说,困惑度是句子的概率的倒数,表示对于一篇文章,模型有多不确定它是属于某个主题的。因此,困惑度越低,表示模型对句子的预测越准确,即句子越符合语言的规律。

二、主题一致性(Coherence)

定义:主题一致性是衡量主题模型生成的主题质量的一个重要指标。它反映了主题内部词汇之间的语义关联程度和主题的可解释性。更高的一致性分数表示更好的可解释性,意味着主题更有意义、语义上更连贯。

小结:困惑度越低越好,主题一致性越高越好

三、主题数确定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值