【机器学习】主题建模+隐狄利克雷分配模型(LDA)+吉布斯采样

【主题建模】
大数据时代,面对海量的数据,如果能知道它的主题是什么,从数据压缩的角度来看,我们可以通过很少量的主题来管理很大亮的文档数据集合,从而实现一个比较简洁的操作和管理文档集合的目的;除此之外,如果我们能得到主题信息的话,我们能够通过主题信息去进一步提升其它领域,比如说,推荐系统、信息检索、分类等。

主题:一个词集合上面的概率分布。比如对于“计算机”这个主题来说,它在一个词集合上面的概率分布为:
在这里插入图片描述
在这里插入图片描述

隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)

LDA的整体结构
在这里插入图片描述
可以理解为:一共有M个文档,每个文档是在K个主题词的词集合上以一定的概率分布的;而这K个主题词中的每一个主题词,都是在1到|V|这些词所组成的词集合上以一定概率分布的。α可以看作是K个主题词形成的词集合,β可以看作是V个词组成的词集合。θ 和φ都是分别是由参数α和β生成的狄利克雷分布(是一类在实数域以正单纯形为支撑集的高维连续概率分布),θ是一个M*K的矩阵,表示M个文档和K个主题词之间的关系;φ是一个K*V的矩阵,表示K个主题词和V个词之间的关系。
在这里插入图片描述

一共有M篇文档,循环以下过程:
1.一篇文档含有N个词,N服从于一个泊松分布,第一步先根据泊松分布生成一个N。
2. 然后再选择一个θ,θ是一个M*K的矩阵,表示M个文档和K个主题词之间的关系。
3. 对于文档中的每一个词,其主题z服从于一个参数为θ的多项式分布,w是在它的主题和该主题的指示下生成的。

【吉布斯采样】
吉布斯采样算法,就是用条件分布的抽样来替代全概率分布的抽样。采样方法如下:
在这里插入图片描述
由于吉布斯采样是一个收敛的算法,所以当抽取足够多的时候,最后得到的样本就是一个全概率分布的样本。

【隐狄利克雷分配模型的参数学习】
在这里插入图片描述
在这里插入图片描述
参考资料:机器学习-北京理工大学-中国大学mooc

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值