LDA主题模型-Familia源码解读

最新推荐文章于 2024-05-17 08:57:45 发布

fengkuang

最新推荐文章于 2024-05-17 08:57:45 发布

阅读量4.1k

点赞数 2

分类专栏：机器学习文章标签： LDA Familia

本文链接：https://blog.csdn.net/fegnkuang/article/details/81327262

版权

本文介绍了LDA（Latent Dirichlet Allocation）主题模型，重点是概率主题模型，阐述了LDA的重要概念，包括文档、主题和词语的关系。接着，讨论了LDA的训练过程，并对百度的开源库Familia进行了源码解读，强调了其在语义表示和语义匹配上的应用。

摘要由CSDN通过智能技术生成

1. 定义：

关于LDA有两种含义，一种是线性判别分析（Linear Discriminant Analysis），一种是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA），2003年提出，我们这里讲的是后者。
知乎上有篇帖子关于LDA解释的非常详细：一文详解LDA主题模型

2. LDA模型中重要的概念

传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF，但是这种方法忽略了对语义的深层次挖掘，比如两篇文档可能用到的词汇不一样，但是却在说一个事情，或者说是一个主题的。主题模型就是对文档进行语义挖掘，LDA是很经典的方法。三个重要的概念是文档、主题、词语。我们把三者关系进行建模，利用一个生成模型。何谓生成模型？

生成模型：不同的文档选择主题的方法不一样，满足一种分布 $\alpha$ 。我们认为产生一篇文档，首先要确定选择主题的方法，也就是确定一套分布参数 $\theta$ ，按照 $\theta$ 分布，要从N个主题中以某个概率选择某个主题，也就是确定了主题向量z，然后针对这个主题，按照分布 $\beta$ ，确定选词方法，选择词语w，最后构成一个文档来表达该主题。我们用以下图，一个联合概率分布来表示此生成过程：
这里写图片描述
符号解释：
N：表示一个文档中的词的个数
$\alpha$ : 一篇文章选择一个主题时遵循的分布
$\theta$ : 确定一套 $\alpha$ 分布的参数