lda主题模型困惑度_LDA主题建模中主题数的确定——基于困惑度与主题一致性

最新推荐文章于 2024-04-29 18:29:37 发布

Yutin俞廷

最新推荐文章于 2024-04-29 18:29:37 发布

阅读量2w

点赞数 10

文章标签： lda主题模型困惑度

本文链接：https://blog.csdn.net/weixin_31468621/article/details/112195887

版权

LDA主题建模中主题数的确定——基于困惑度与一致性

- 前言
- 1. 首先是导入包
- 2. 分词
- 3. 复杂性和一致性
- 4. 绘制Perplexity-Coherence-Topic 折线图
- 5. 依据困惑度和一致性评价结果进行主题建模

前言

最近在《比较》公众号上读到《叙事的经济学与经济学叙事》一文，这篇文章介绍到2013年诺贝尔经济学奖得主，耶鲁大学经济学罗伯特·希勒在2017年发表了一篇论文(Narrative Economics)，后又写作《叙事经济学》一书，其中有一个重要的观点就是，这里的叙事(Narrative)特指在公众中可以像病毒一样传播的故事，通过滚雪球和病毒式传播，一个叙事可能成为社会经济活动中的重要驱动力量。

然后我就找来这本书阅读，看了一部分后确有茅塞顿开质感，时空语义分析或文本地理挖掘具有很大的现实意义。可以在定性和定量两个方向探索有意思的问题。恰巧我本科读了新闻传播，对媒介行为和叙事有很多基础，如此想来似乎多了一份关注地理空间叙事的动力。

紧接着上次LDA主题建模的分享，这里进一步分析主题数的确定。在LDA主题建模以后，需要对模型的好坏进行评估，以此判断改进的参数或算法的好坏，以及支撑研究问题，比如话题的时空格局特征。

在LDA主题模型中，模型的整体性能需要不断测试并评价，从而优化算法的建模能力。常见的评估方法包括两种：(1)先将测试数据集进行标注分类作为真实结果，然后采用 NMI等算法与聚类结果进行比较。(2)不需要对测试数据集进行分类标注，直接采用训练出来的模型来预测结果。而最常用的评价方法是计算困惑度和相似度。

困惑度指的是在文本分析中，训练出来的模型识别某些文档包含哪些主题具有不确定性。因此数值越低，不确定性就越小，则最后的聚类结果就越好。Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。

主题一致性是另一种主要的最优主题数目选择的模型。国内极少研究采用这种方法确定主题数目，而主题一致性是衡量主题质量最有效的方法，也是估计主题数目的重要技术之一。主题一致性提供四个一致性度量：u_mass、c_v、c_u

最低0.47元/天解锁文章

Yutin俞廷

关注

10
点赞
踩
95

收藏

觉得还不错? 一键收藏
0
评论
lda主题模型困惑度_LDA主题建模中主题数的确定——基于困惑度与主题一致性

LDA主题建模中主题数的确定——基于困惑度与一致性前言1. 首先是导入包2. 分词3. 复杂性和一致性4. 绘制Perplexity-Coherence-Topic 折线图5. 依据困惑度和一致性评价结果进行主题建模前言最近在《比较》公众号上读到《叙事的经济学与经济学叙事》一文，这篇文章介绍到2013年诺贝尔经济学奖得主，耶鲁大学经济学罗伯特·希勒在2017年发表了一篇论文(Narrat...
复制链接

扫一扫

lda主题模型困惑度_LDA主题建模中主题数的确定——基于困惑度与主题一致性

前言

“相关推荐”对你有帮助么？