Latent Dirichlet Allocation (LDA)

LDA可以用来干什么?

我们拿到一篇文章,然后读完就基本可以知道它是讲什么的,比如是讲“中国经济发展状况”,或者是讲“中美贸易战对两国的影响”,又或者是在讲“农村里的爱情故事”…LDA就是在做一个类似的事情:让计算机读一篇文章,然后概括出来这篇文章在讲什么内容,即这篇文章的主题是什么。所以,LDA是一个主题模型(Topic Model)。

下面开始正文。

LDA模型简单引入与贝叶斯估计

现在思考一个问题:如何生成(写)一篇文章?

第一种比较易于理解的想法是:我有一个词袋,比如(单词1,单词2,单词3,…,单词n),它们具有一定的概率分布( p 1 , . . . , p n p_1, ..., p_n p1,...,pn)。然后我就从这个词袋里面选一个词,然后重复n次,就构成了一个由n个单词组成的文章。它的分布其实是一个多项式分布(后面介绍)。这也就是 Unigram Model。

进一步地想法就是,可能上述方法生成过程太过简单,词跟词之间可能根本没有联系。所以更现实的情况就是:我们先选定一个主题,然后再去确定这个主题下用什么词(袋)。就像我们写作文,确定好了题目要写“小草”,大概率会用到“绿色”、“不起眼”等词,应该不太可能出现“汪洋、深海恐惧症”这一类的词。所以,如何生成一篇文章?可以先以一定的概率生成主题,然后再以一定概率生成词。比如,图中这个例子,我们可以先从“文档-主题”骰子中以{教育:0.2,经济:0.6,交通:0.2}的概率分布选出一个主题。比如选出的主题的“经济”,我们再从“主题-单词”骰子中以{市场:0.4,金融:0.4,企业:0.2}的概率选出一个词。然后重复上述选词过程n次,我们就生成了一篇n个字的文章。如果我们重复文章生成一个大过程m次,我们就生成了m篇文章。这就是PLSA Model。PLSA这个过程,同Unigram Model一样,没有关注词跟词之间的顺序,只不过认为词跟词之间可能有一些隐含的主题类别。

在这里插入图片描述
贝叶斯学派对上述PLSA模型又提出了疑问。 为什么“文档-主题”骰子和“主题-单词”骰子就是一个确定的概率呢?还是以上图的例子为例,PLSA模型认为主题分布和词分布是唯一确定的,比如主题分布就是{教育:0.2,经济:0.6,交通:0.2},“经济主题”的词分布就是{市场:0.4,金融:0.4,企业:0.2}。贝叶斯学派认为,主题分布和词分布不再唯一确定不变,即无法确切给出。比如,主题分布可能是{教育:0.2,经济:0.6,交通:0.2},那也有可能是{教育:0.6,经济:0.2,交通:0.2},到底是哪个我们也不确实,它也是随机变化的。但再怎么变化,也依然服从一定的分布,即主题分布跟词分布由Dirichlet分布(后面介绍)随机确定。所有有一句话,Dirichlet分布是分布的分布。像上述例子,分布的分布理解:第一个分布就是指“{教育:0.2,经济:0.6,交通:0.2}”,第二个分布是指“那到底是{教育:0.2,经济:0.6,交通:0.2}还是{教育:0.6,经济:0.2,交通:0.2}”。这就是LDA Modeling。

LDA Modeling里面那个疑问,就是贝叶斯学派的思想。在此之前,我们先回归一下高数里经常用到的贝叶斯公式:

在这里插入图片描述
把这个公式稍微变一下,得到贝叶斯估计:
在这里插入图片描述
其中, π ( θ ) \pi(\theta) π(θ)为参数 θ \theta θ的先验分布,表示对参数 θ \theta θ的主观认识,是非样本信息。 π ( θ ∣ x ) \pi(\theta|x) π(θx)为参数 θ \theta θ的后验分布。因此,贝叶斯估计可以看作是,在假定 θ \theta θ服从 π ( θ ) \pi(\theta) π(θ)的先验分布的前提下,

其实贝叶斯学派与传统频率学派的核心区别就像上面LDA与PLSA的例子一样,对于待估参数 θ \theta θ 有不同的观点:传统频率学派认为待估计参数 θ \theta θ 是确定的,是客观存在的;贝叶斯学派认为待估计参数 θ \theta θ 也是随机的,和一般随机变量没有本质区别。他们的估计方法自然也不同,频率学派用极大似然估计,贝叶斯学派则使用贝叶斯估计。

二项分布与多项分布

高数都学过二项分布。举一个简单例子回顾:掷一枚均匀的硬币,正面出现概率0.5,反面出现概率0.5。连续掷n次,问n次里面出现k次正面(自然,反面就是n-k次)的概率是多少?这里面涉及的概率分布就是一个二项分布的概念。

下面给出更一般的概念:二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。

在这里插入图片描述
下面引入多项分布:多项分布是二项分布的推广。多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能 ( 1 , 2 , 3 , . . . , k ) (1, 2, 3, ..., k) (1,2,3,...,k),并且 ∑ i = 1 k p i = 1 \sum_{i=1}^k p_i= 1 i=1kpi=1。比如,从掷硬币换成掷骰子(6个面)。

多项分布的概率函数如下:
在这里插入图片描述

共轭分布

MCMC采样

怎样理解采样?
计量经济学在一开始就介绍了两个概念“样本(Sample)”和“总体(Population)”。很多情况下(比如总体包含个体太多,普查成本太高),我们没有办法去直接研究“总体”,所以我们从总体中进行采样(抽样),得到“样本”。但是由于样本来自于总体,必然带有总体的信息。因此我们希望通过研究样本,可以对总体得到一些了解。(下面也会举一些具体的例子)

MCMC = Markov Chain(马尔科夫链)+ Monte Carlo(蒙特卡洛)

https://zhuanlan.zhihu.com/p/170997785
https://blog.csdn.net/pipisorry/article/details/42649657
https://www.cnblogs.com/pinard/p/6831308.html

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值