【机器学习】主题建模+隐狄利克雷分配模型(LDA)+吉布斯采样

最新推荐文章于 2022-06-16 03:19:30 发布

CC‘s World

最新推荐文章于 2022-06-16 03:19:30 发布

阅读量939

点赞数 1

分类专栏：机器学习文章标签：机器学习主题建模吉布斯采样隐狄利克雷分配模型

本文链接：https://blog.csdn.net/qq_36643449/article/details/104881109

版权

机器学习专栏收录该内容

27 篇文章 12 订阅

订阅专栏

【主题建模】
大数据时代，面对海量的数据，如果能知道它的主题是什么，从数据压缩的角度来看，我们可以通过很少量的主题来管理很大亮的文档数据集合，从而实现一个比较简洁的操作和管理文档集合的目的；除此之外，如果我们能得到主题信息的话，我们能够通过主题信息去进一步提升其它领域，比如说，推荐系统、信息检索、分类等。

主题：一个词集合上面的概率分布。比如对于“计算机”这个主题来说，它在一个词集合上面的概率分布为：
在这里插入图片描述

隐狄利克雷分配模型（Latent Dirichlet Allocation，LDA）

LDA的整体结构
在这里插入图片描述
可以理解为：一共有M个文档，每个文档是在K个主题词的词集合上以一定的概率分布的；而这K个主题词中的每一个主题词，都是在1到|V|这些词所组成的词集合上以一定概率分布的。α可以看作是K个主题词形成的词集合，β可以看作是V个词组成的词集合。θ 和φ都是分别是由参数α和β生成的狄利克雷分布(是一类在实数域以正单纯形为支撑集的高维连续概率分布)，θ是一个M*K的矩阵，表示M个文档和K个主题词之间的关系；φ是一个K*V的矩阵，表示K个主题词和V个词之间的关系。
在这里插入图片描述

一共有M篇文档，循环以下过程：
1.一篇文档含有N个词，N服从于一个泊松分布，第一步先根据泊松分布生成一个N。
2. 然后再选择一个θ，θ是一个M*K的矩阵，表示M个文档和K个主题词之间的关系。
3. 对于文档中的每一个词，其主题z服从于一个参数为θ的多项式分布，w是在它的主题和该主题的指示下生成的。

【吉布斯采样】
吉布斯采样算法，就是用条件分布的抽样来替代全概率分布的抽样。采样方法如下：
在这里插入图片描述
由于吉布斯采样是一个收敛的算法，所以当抽取足够多的时候，最后得到的样本就是一个全概率分布的样本。

【隐狄利克雷分配模型的参数学习】
在这里插入图片描述

参考资料：机器学习-北京理工大学-中国大学mooc

CC‘s World

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】主题建模+隐狄利克雷分配模型(LDA)+吉布斯采样

【主题建模】大数据时代，面对海量的数据，如果能知道它的主题是什么，从数据压缩的角度来看，我们可以通过很少量的主题来管理很大亮的文档数据集合，从而实现一个比较简洁的操作和管理文档集合的目的；除此之外，如果我们能得到主题信息的话，我们能够通过主题信息去进一步提升其它领域，比如说，推荐系统、信息检索、分类等。主题：一个词集合上面的概率分布。比如对于“计算机”这个主题来说，它在一个词集合上面的概率分布...
复制链接

扫一扫