Gibbs 采样

最新推荐文章于 2022-02-22 19:12:31 发布

jazwoo

最新推荐文章于 2022-02-22 19:12:31 发布

阅读量1.8k

点赞数

分类专栏：自然语言处理

自然语言处理专栏收录该内容

22 篇文章 0 订阅

订阅专栏

1，Gibbs抽样：对P(z)，z是向量，按照Gibbs描述的步骤，可以抽取z(1),z(2),...z(n)这n个样本，Gibbs保证这n个样本的分布服从P(z)。

z(0)=(z1,z2,...,zn)

Repeat

for i = 1 to n

从p(zi|z1,z2,...,zi,zi+1,...,zn)中抽取zi

得到z(t)=(z1,z2,...,zn)

2，上面描述了一个一般的Gibbs抽样过程，假设重复N次，将得到z(1),z(2),...,z(N)个样本。抽样有一个收敛到目标分布的过程(burn-in)，假设需要a次，那么可以认为z(a),z(a+1),...,z(N)都是从P(z)中抽取出来的。Gibbs抽样中相邻两次得到的样本是相关的，因此通常每隔b次才抽样一次，来消除这种相关性。在实际中a和b通常采取预设置的方法比如几千设为a，几十或者几百设为b，因为二者没有很好的理论设置方法。

3，假设通过Gibbs抽样我们得到了M个服从P(z)分布的样本，可以用来做什么？

1）可以求期望：直接求样本平均即可

2）可以求函数期望：将样本做相关的函数变换得到新的样本集，求平均即可

3）直接利用样本本身，求相关的统计量

这三种操作在P(z)本身比较复杂但是p(zi|z1,z2,...,zi,zi+1,...,zn)容易求解的时候十分有用。

4，在LDA中我们关注三个参数z，theta和phi。其中z是语料中每一个word对应的隐变量（主题），theta是语料中每一个文档的主题分布，phi是每一个主题的term分布。其实只要求得z，其他两个可以通过简单的似然估计得到。于是需要将LDA的概率公式P(w,z,theta,phi | alpha,beta)通过积分的方法把theta和phi积掉，剩下P(w,z | alpha,beta)。然后求解P(z|w,alpha,beta) = P(w,z | alpha,beta) / P(w | alpha,beta)，由于分母要对K的n次方个项求和因此直接求不可行（其中K是主题数，n是词汇表的长度）。Gibbs抽样就是要完成对P(z|w,alpha,beta)的抽样，利用抽样结果通过简单的似然估计求得theta和phi。

5，理解上述过程之后可以参考以下两个代码，理解Gibbs解LDA的具体实现

http://www.arbylon.net/projects/LdaGibbsSampler.java

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。