lda主题模型困惑度_LDA主题建模中主题数的确定——基于困惑度与主题一致性

LDA主题建模中主题数的确定——基于困惑度与一致性

    • 前言

    • 1. 首先是导入包

    • 2. 分词

    • 3. 复杂性和一致性

    • 4. 绘制Perplexity-Coherence-Topic 折线图

    • 5. 依据困惑度和一致性评价结果进行主题建模

前言

最近在《比较》公众号上读到《叙事的经济学与经济学叙事》一文,这篇文章介绍到2013年诺贝尔经济学奖得主,耶鲁大学经济学罗伯特·希勒在2017年发表了一篇论文(Narrative Economics),后又写作《叙事经济学》一书,其中有一个重要的观点就是,这里的叙事(Narrative)特指在公众中可以像病毒一样传播的故事,通过滚雪球和病毒式传播,一个叙事可能成为社会经济活动中的重要驱动力量。

然后我就找来这本书阅读,看了一部分后确有茅塞顿开质感,时空语义分析或文本地理挖掘具有很大的现实意义。可以在定性和定量两个方向探索有意思的问题。恰巧我本科读了新闻传播,对媒介行为和叙事有很多基础,如此想来似乎多了一份关注地理空间叙事的动力。

紧接着上次LDA主题建模的分享,这里进一步分析主题数的确定。在LDA主题建模以后,需要对模型的好坏进行评估,以此判断改进的参数或算法的好坏,以及支撑研究问题,比如话题的时空格局特征。

在LDA主题模型中,模型的整体性能需要不断测试并评价,从而优化算法的建模能力。常见的评估方法包括两种:(1)先将测试数据集进行标注分类作为真实结果,然后采用 NMI等算法与聚类结果进行比较。(2)不需要对测试数据集进行分类标注,直接采用训练出来的模型来预测结果。而最常用的评价方法是计算困惑度和相似度。

困惑度指的是在文本分析中,训练出来的模型识别某些文档包含哪些主题具有不确定性。因此数值越低,不确定性就越小,则最后的聚类结果就越好。Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。

主题一致性是另一种主要的最优主题数目选择的模型。国内极少研究采用这种方法确定主题数目,而主题一致性是衡量主题质量最有效的方法,也是估计主题数目的重要技术之一。主题一致性提供四个一致性度量:u_mass、c_v、c_u

  • 10
    点赞
  • 95
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值