深入浅出LDA(3)

最新推荐文章于 2019-04-28 13:38:06 发布

相国大人

最新推荐文章于 2019-04-28 13:38:06 发布

阅读量532

点赞数

分类专栏：概率图模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_36326955/article/details/78431690

版权

概率图模型专栏收录该内容

22 篇文章 4 订阅

订阅专栏

阅读说明
前几节的一点小尾巴
Dirichlet分布

0. 阅读说明

与LDA紧密相关的必要且最小知识集合为博文的正文。凡是灰色框中的内容为拓展和补充内容，直接跳过并不会影响你的理解。灰色框指的是如下形式的段落：

这是一个灰色框示意段落
这部分内容为补充性内容，直接跳过并不会影响你的理解

1. 前几节的一点小尾巴

在第一节中，我们从二项分布推导Gamma 分布的时候，使用了如下的等式：

P (C \leq k) = n ! k ! ( n - k - 1 ) ! \int 1 p t k (1 - t) n - k - 1 d t, C \sim B (n, p)

$P(C \le k) = \frac{n!}{k!(n-k-1)!} \int_p^1 t^k(1-t)^{n-k-1} dt, \quad C\sim B(n,p)$

现在大家可以看到，左边是二项分布的概率累积，右边实际上是 $\beta(t|k+1,n−k)$ 分布的概率积分。这个式子之前并没有给出证明，下面我们进行证明
我们可以如下构造二项分布，取随机变量看 $X_1,X_2,\cdots,X_n\sim^{iid}Uniform(0,1)$ ,一个成功的贝努利实验就是 $X_i<p$ ,否则表示失败,于是成功的概率为 $p$ 用于计数成功的次数，于是 $C\sim B(n,p)$

这里写图片描述

显然我们有如下式子成立:

P (C \leq k) = P (X (k + 1) > p)

$P(C \le k) = P(X_{(k+1)} > p)$
此处

X(k+1) $X_{(k+1)}$ 是顺序统计量，为第

k+1 $k+1$ 大的数。等式左边表示贝努利实验成功次数最多

k $k$ 次，右边表示第

k+1 $k+1$ 大的数必然对应于失败的贝努利实验，从而失败次数最少是

n−k $n−k$ 次，所以左右两边是等价的。由于

X(k+1)∼Beta(t|k+1,n−k) $X_{(k+1)}\sim Beta(t|k+1,n−k)$ , 于是

P (C \leq k) = P (X (k + 1) > p) = \int 1 p B e t a (t | k + 1, n - k) d t = n ! k ! ( n - k - 1 ) ! \int 1 p t k (1 - t) n - k - 1 d t

$\begin{align*} P(C \le k) & = P(X_{(k+1)} > p) \\ &= \int_p^1 Beta(t|k+1, n-k)dt \\ &= \frac{n!}{k!(n-k-1)!} \int_p^1 t^k(1-t)^{n-k-1} dt \end{align*}$

以上证明内容来自：LDA-math-认识Beta/Dirichlet分布(2)

2. Dirichlet分布

2.1 回顾 $\beta$ 分布

这里写图片描述

此时 $X_{(k)}$ 的分布即为 $\beta$ 分布

2.2 Dirichlet分布

这里写图片描述
此即为Dirichlet分布

2.2.1 Dirichlet分布推导

以下内容来自：
LDA-math-认识Beta/Dirichlet分布(3)

2.2.2 $\beta$ 分布与Dirichlet分布

$\beta$ 分布可以看作Dirichlet分布在二维时的特例。
这里写图片描述

这里写图片描述

2.3 如何更好的理解这个分布？

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。