机器学习深版10:主题模型

机器学习深版10:主题模型TopicModel

1. 简介

LDA(Latent Dirichlet Allocation)是一种文档生成模型。它认为一篇文章是有多个主题的,而每个主题又对应着不同的词。一篇文章的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了这篇文章的第一个词。不断重复这个过程,就生成了整片文章。当然这里假定词与词之间是没顺序的。
LDA的使用是上述文档生成的逆过程,它将根据一篇得到的文章,去寻找出这篇文章的主题,以及这些主题对应的词。
现在来看怎么用LDA,LDA会给我们返回什么结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 主题分布与词分布

上面说了,一篇文章的生成过程,每次生成一个词的时候,首先会以一定的概率选择一个主题。不同主题的概率是不一样的,在这里,假设这些文章-主题符合多项式分布。同理,主题-词也假定为多项式分布。所谓分布(概率),就是不同情况发生的可能性,它们符合一定的规律。

1. 两点分布

在这里插入图片描述

2. 二项分布(伯努利分布)

在这里插入图片描述

3. 多项式分布

参考文章:https://blog.csdn.net/qq_15111861/article/details/80481168
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. Beta分布

在这里插入图片描述
在这里插入图片描述

3. 参数估计

上面我们已经知道了主题分布和词分布都属于多项式分布,只是它们的参数究竟是什么值,我们还无从知晓。如果我们能估算出它们的参数,我们就能求得这些主题分布和词分布。
LDA的主要目的就是求出主题分布和词分布,距离这个目的,我们近在咫尺

1. 极大似然估计

我们知道,频率可以用来估计参数。例如对于两点分布,抛硬币。当我们抛的次数足够多,可以估出p接近1/2,大数定理是有力的保证

大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。

频率学派为参数估计提供了另一种有力的工具——极大似然估计。它的思想可以这样形象地表达:既然样本已经出来了,我们有理由相信它们发生的概率很大,于是我们不如就设给定参数的情况下,出现这些样本的概率是最大的,通过求导计算极值,从而计算出参数。

在这里,我们的样本就是我们观察到的,文章d,以及文章里的词w。求参数,我们可以写出如下式子:
在这里插入图片描述

2.贝叶斯估计

在这里插入图片描述

3. 共轭先验与共轭分布

在这里插入图片描述
在这里插入图片描述
原本绿色骰子(doc-topic分布)是P(θ)先验概率,现在成了P(θ|x)后验概率。词分布也是同样的。我们已经知道,主题分布以及词分布式服从多项式分布的。那么他们的参数要服从什么分布呢?我们知道,P(ϑ|x)∝P(x|ϑ)P(ϑ),而P(θ|x)服从多项式分布,因此P(θ)P(x|θ)归一化后也要服从多项式分布。

在贝叶斯概率理论中,有这么一种定义,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。

那么,我们就可以选择似然函数P(x|θ)的共轭先验作为P(θ)的分布。而Dirichlet分布正是多项式分布的共轭先验概率分布。

Dirichlet分布的更多说明和数学推导可以参考篇尾参考资料里的LDA数学八卦以及LDA漫游指南。这里叙述共轭先验分布一些后面要用到的特性。
在这里插入图片描述
在这里插入图片描述

4. 形式化LDA

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. gamma函数

在这里插入图片描述

4. 简单理解

在这里插入图片描述
在这里插入图片描述
参考文章:https://blog.csdn.net/qq_39422642/article/details/78389063
在这里插入图片描述
下面是通俗理解LDA:
在这里插入图片描述
在这里插入图片描述
由此可以定义LDA的生成过程:

对每篇文档,在主题分布中抽取一个主题;(相当于左图)
对抽到的主题所对应的单词分布中随机抽取一个单词;(在右图中抽)
重复上述过程直至遍历整篇文档中的每个单词;

经过以上三步,就可以看一下两个分布的乘积,是否符合给定文章的分布,以此来调整。
在这里插入图片描述
在这里插入图片描述

5. 几个主题模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值