狄利克雷分布公式_[统计学习] 2 LDA (潜在狄利克雷分配) 算法过程的直观理解

最新推荐文章于 2024-07-19 16:05:31 发布

花城旧梦

最新推荐文章于 2024-07-19 16:05:31 发布

阅读量685

点赞数 1

文章标签：狄利克雷分布公式

本文链接：https://blog.csdn.net/weixin_31133141/article/details/112563821

版权

本文通过直观的方式解释LDA（潜在狄利克雷分配）算法，从Unigram模型逐步过渡到PLSA再到LDA，探讨文档生成过程的建模，介绍了LDA的物理过程及Gibbs Sampling抽样方法，旨在帮助读者理解LDA的工作原理。

摘要由CSDN通过智能技术生成

这篇文章记录了对于统计学习中一些算法的思想、步骤、意义的理解，对于比较抽象的概念力求从不同的角度去看待，同时试图探索不同算法之间的联系。

LDA（Latent Dirichlet Allocation）是一种非常经典的主题模型，从提出之后便有非常多的应用。本篇文章主要从直观上去介绍LDA究竟在干什么。阅读本文需要对多项式分布，Beta分布，Dirichlet分布，Gibbs Sampling有基本的了解。

1 背景

1.1 问题概述

在生活中我们能够遇到许多文本，如果把文本储存为文档，每篇文档可以用一个有序词序列表示：

，许多文档可以构成一个语料库：

。我们希望利用一些统计学方法了解语料库中的词序列是如何生成的。LDA做的正是这一件事情——

对于文档的生成过程进行建模。

1.2 什么是LDA

了解LDA之前首先需要知道关于LDA的一些概要，在David M. Blei于2003年发表的文章中，LDA横空出世，这是一种无监督的，三层贝叶斯模型。所谓“主题”，可以看做对于文档内容的高度概括，比如一篇新闻的主题可以是“体育”，可以是“艺术”等，当然一篇文档也可以有多个主题，比如“体育，亚运会，竞技”等。在文本分析中，我们常常会通过一些关键词来判断文章的主题，比如如果文章中出现较多“比分”、“胜利”、“参赛”等词汇，那么我们可以判断这篇文章的主题大概率是体育类的。

2 LDA的具体过程

别忘了我们做这些事情的最终目的——对文档的生成过程进行建模，这里通过一个更为直观的例子来理解——上帝掷骰子。我们假设一篇文档中所有词汇都是通过“掷骰子”游戏随机生成的，那么我们的问题就可以转换为——这个“掷骰子”的游戏究竟是如何玩的。这个问题可以拆解为两个部分：（1）这些骰子是什么样的？（2）按照什么规则去投掷这些骰子？

2.1 Unigram模型

先考虑最简单的情况——上帝只有一个骰子（V个面，每个面对应一个单词，各个面概率不一），这就是Unigram模型。具体而言，我们认为一个有n个词语的文档是这样生成的：独立投掷这个骰子n次产生n个词语。我们可以用多项式分布来刻画这个抛掷V面骰子的实验：

，具体过程如下图所示：

这里我们假设了上帝只有一个固定的骰子，然鹅如果我们试着从贝叶斯的角度看待这个问题，我们可以去除骰子固定的假设，而是认为骰子

也是一个

随机变量。

因此，这个掷骰子的游戏就变成了：上帝拥有一个装有无穷骰子的坛子，里面有很多种骰子：不同的形状（面数不同），每面有不同的概率。我们可以认为骰子

也有一个概率分布：

，这个便是

骰子的先验分布。我们不知道在一次实验中上帝使用了哪个骰子，因此只能利用先验分布计算：

选好骰子之后，各个词语的出现就服从多项式分布了，由于狄利克雷分布和多项式分布的共轭性我们可以推出后验：

参数

的估计我们取狄利克雷分布后验的平均值：

结合上面的式子，我们可以计算出整个语料的产生概率：

2.2 从Unigram到PLSA

在Unigram模型中，我们就是假设一篇文章的n个词语都是简单地由骰子随机产生，然而我们知道，写一篇文章往往会围绕一个主题，比如写体育主题的文章就会比较多用到体育相关的词汇，少涉及经济、艺术方面的词汇。考虑到这一点，我们不妨这样假设文章的生成过程：先用骰子投出一个主题，再选择对应主题的骰子投出文章中的n个词语。

所以这里，上帝有两种骰子，一种是Doc-topic骰子，用于生成文章的主题，一种是Topic-word骰子，用于确定主题后生成词语。

我们将这个游戏过程用公式表达出来：游戏中我们有K个Topic-word骰子，记作

，对于包含M篇文档的语料库

中每一篇文档

，都有一个特定的Doc-topic骰子

。所有对应的骰子记作

。

于是PLSA模型中第m篇文档

中每个词语的生成概率为:

整篇文档的生成概率为：

2.3 从PLSA到LDA

同样我们从贝叶斯的视角去看待上述的过程：将骰子的参数

看作

随机变量，并且这些参数都有 先验分布。因此，类似Unigram模型的贝叶斯改造，我们可以用同样的方式对PLSA进行改造：也就是这两个骰子同样是从罐子里抽取出来的。

LDA中的游戏规则如下：

Step1：从Topic-word坛子中独立抽出K个骰子（1, 2, ...,K）
Step2：生成文档前先从抽取一个Doc-topic骰子（确定主题），然后重复以下过程n次（生成该文档的n个词语）：
- Step2.1：投掷这个Doc-topic骰子，得到topic编号z
- Step2.2：选择K个Topic-word骰子中编号为z的那个，投掷得到一个词语。

也就是说，每一篇文档中

，每个词语都有个对应的topic，这篇文档就是

。于是，M篇文档的语料库就可以用所有文档的词汇和词汇对应的topic表示：

LDA和PLSA的具体区别可以用图的方式直观表示出来，我们看到，LDA只不过是在PLSA的基础上加了两个Dirichlet先验，即LDA可以看作PLSA的贝叶斯化版本。