文章目录

主题建模(Topic Modeling)是一种统计模型,用于在一组文档中发现抽象的"主题"。主题可以看作是一种潜在的变量,能够捕获文档中的主要讨论点。
比如,你有一堆新闻文章,通过主题建模,可能可以发现一些主题,如"国际政治",“经济”,“体育”,“娱乐"等。每个主题都由一组与之相关的关键词定义。例如,“体育”主题可能包括"篮球”,“足球”,"奥运会"等词语。
最常见的主题建模方法是潜在Dirichlet分配(LDA),它假设每个文档都是从多个主题的混合体中生成的,而每个主题则是从一组特定的词语分布中生成的。
主题建模在文本挖掘、自然语言处理和信息检索等领域有广泛的应用,可以用来探索大规模文本集合的隐藏结构,帮助我们更好地理解和解释文本数据。
A Brief History of Topic Models





Latent Dirichlet Allocation (LDA)潜在狄利克雷分布
- 一种用于主题模型的生成概率模型,通过对文档中的词汇进行概率分布分析,从而发现文档中的潜在主题。

核心思想

Latent Dirichlet Allocation(LDA)是一种主题模型,它允许观察到的一组文档可以被解释为潜在主题的集合。 这是一种无监督的生成模型,使我们能够确定由哪些主题生成了一篇特定的文档,并能确定每个主题的词分布。
LDA的基本思想是:
-
每一篇文档都可以被看作是一系列主题的混合,而每一个主题又可以被看作是一系列词的混合。 例如,如果我们有一个关于体育的文档,那么可能的主题包括"篮球"、“足球”、“棒球"等,每个主题都有各自的词汇,如"投篮”、“射门”、"跑垒"等。
-
LDA算法通过反复迭代来学习
主题-词分布和文档-主题分布,最终可以为每个文档提供一个主题分布(告诉我们这篇文档关于哪些主题),并为每个主题提供一个词分布(告诉我们每个主题包含哪些关键词)。
LDA广泛用于自然语言处理、信息检索和机器学习等领域,用于文档分类、情感分析、推荐系统等任务。

LDA input

LDA output

LDA 如何学习

Sampling-based mothods 基于采样的方法

- 蓝色的表格用于统计
topic-word共同出现的情况 - 绿色的表格用于统计
document-topic共同出现的情况 - 蓝色的表格中的数据一开始都被初始化为
0.01,绿色的则都是0.1 - 这些初始化的数据被称为
prior先验 - 之所以以这样的方式初始化,是因为我们为了
smooth结果,避免在计算的过程中出现0 - 看蓝色表格左上角的
mouse-t1为1.01其实1.01 = 1 + 0.01,除了初始值之外,因为在橙色的表格中,mouse和t1共同出现了1次,所以这里得到了1.01 - 同样的
moust-t3=2.01 - 其他的表格单元也都如法炮制
- 填完了蓝色和绿色的表格之后,进行下一步
- 那就是遍历所有的
word token然后 sample 一个新的 topic,这个步骤是根据这两个表格来决定的:

- 其中 P ( t i ∣ w ) P(t_i|w) P(ti∣w

LDA是一种主题建模方法,用于发现文档中的潜在主题。它假设文档由多个主题混合生成,每个主题由特定的词分布定义。LDA通过采样方法学习主题-词和文档-主题分布,常用于文本挖掘和自然语言处理任务,如文档分类和情感分析。
最低0.47元/天 解锁文章
2447

被折叠的 条评论
为什么被折叠?



