Dirchlet分布

最新推荐文章于 2023-12-08 10:17:07 发布

落蓝飞雪

最新推荐文章于 2023-12-08 10:17:07 发布

阅读量1k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/hhl525607924/article/details/72866570

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

标签：机器学习 LDA 概率论 Dirchlet分布

1.二项分布

1.1两点分布(伯努利分布）

一个二元随机变量 $x \in \lbrace0,1 \rbrace$ ,比如x可能描述一个射击实验的结果,x=1表示射中，x=0，表示未射中。x=1的概率被记为参数 $\mu$ ,因此有

p (x = 1 ∣ μ) = μ

$p(x=1 \mid \mu)=\mu$
其中

0≤μ≤1 $0 \leq \mu \leq 1$ 可以得出

p(x=0∣μ)=1−μ $p(x=0 \mid \mu)=1-\mu$ ,所以x的概率分布可以写成

B e r n (x ∣ μ) = μ x (1 - μ) 1 - x

$Bern(x \mid \mu)= \mu^x(1-\mu)^{1-x}$
这里说明有时候会看到

p(x=1;μ) $p(x=1;\mu)$ 这种概率的表示方法就是频率学派的观点，

μ $\mu$ 被看成是真正的未知的参数，是个定值。而

p(x=1∣μ) $p(x=1 \mid \mu)$ 这种记法是贝叶斯学派的观点，把

μ $\mu$ 被看成是未知的随机变量。

1.2二项分布

伯努利实验独立重复多次，获得观测的数据集 ${\cal D}=\lbrace x_1,...x_N \rbrace$ 。该数据集是独立的从 $p(x \mid \mu)$ 中抽取x的观测值，相同过观测到的数据集(中靶次数）来预测 $\mu$ 的值，用最大似然估计，先写出最大似然函数：

p ( ∣ μ) = \prod n = 1 N p (x n ∣ μ) = \prod n = 1 N μ x n (1 - u) 1 - x n

$p({\cal D} \mid \mu) = \prod_{n=1}^Np(x_n \mid \mu)=\prod_{n=1}^N \mu^{x_n}(1-u)^{1-x_n}$
对数似然函数为：

ln p ( ∣ μ) = \sum n = 1 N ln p (x n ∣ μ) = \sum n = 1 N {x n ln μ + (1 - x n) ln (1 - μ)}

$\ln p({\cal D} \mid \mu) = \sum_{n=1}^N \ln p(x_n \mid \mu) = \sum_{n=1}^N \lbrace x_n \ln \mu +(1-x_n) \ln (1-\mu) \rbrace$
使得对数似然最大

μ M L = 1 N \sum n = 1 N x n

$\mu_{ML}=\frac{1}{N} \sum_{n=1}^N x_n$
对x=1（中靶次数）的观测数量计数为m，则有

μ M L = m N

$\mu_{ML}=\frac{m}{N}$
此时如果N=m=3，则

μML=1 $\mu_{ML}=1$ 显然是不合理的。这是频率学派估计参数的方式，下面来看看贝叶斯学派如何解决这个问题。
正式的二项分布可以是写成

B i n (m ∣ N, μ) = (N m) u m (1 - μ) N - m

$Bin(m \mid N,\mu)={N \choose m} u^m(1-\mu)^{N-m}$

2.Beta分布

2.1Beta分布

前文已经说了，贝叶斯学派把 $\mu$ 当做是随机变量，自然会思考这个随机变量服从什么样分布，这个分布其实就是通常说的先验分布，先验分布一般会选择我们所求分布的共轭分布。注意到似然函数是某个因子与 $μ^x(1 − μ)^{1−x}$ 的乘积的形式。如果我们选择一个正比于μ和(1 − μ)的幂指数的先验概率分布，那么后验概率分布(正比于先验和似然函数的乘积)就会有着与先验分布相同的函数形式。这个性质被叫做共轭性(conjugacy)。Beta分布刚好满足条件，

B e t a (μ ∣ α, β) = Γ ( α + β ) Γ ( α ) + Γ ( β ) μ α - 1 (1 - μ) β - 1

$Beta(\mu \mid \alpha ,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)+\Gamma(\beta)} \mu^{\alpha-1}(1-\mu)^{\beta-1}$
其中

Γ (x) \equiv \int \infty 0 μ x - 1 e - μ d μ

$\Gamma(x) \equiv \int_0^\infty \mu^{x-1} e^{-\mu} {\rm d}\mu$

有性质 $\Gamma(x+1)=x！$ 和 $\Gamma(x+1)=x\Gamma(x)$
Beta分布前的系数不过是为了让其满足归一性条件。
Beta分布的均值和方差为：

E [μ] = α α + β

$E[\mu]=\frac{\alpha}{\alpha+\beta}$

v a r [μ] = α β ( α + β ) 2 ( α + β + 1 )

$var[\mu]=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$
参数

α $\alpha$ 和

β $\beta$ 经常被称为超参数，因为他们控制了参数

μ $\mu$ 的概率分布。

2.2贝叶斯估计

有贝叶斯公式

p (μ ∣ D) \propto p (D ∣ μ) p (μ)

$p(\mu \mid { D}) \propto p({ D} \mid \mu)p(\mu)$

后验概率为先验与二项似然函数相乘然后归一化，只保留依赖 $\mu$ 的因子

p (μ ∣ D) \propto B i n (m ∣ N, μ) * B e t a (μ ∣ α, β)

$p(\mu \mid{ D}) \propto Bin(m\mid N, \mu)*Beta(\mu \mid \alpha ,\beta)$

p (μ ∣ m, l, α, β) \propto μ m + α - 1 (1 - μ) l + β - 1

$p(\mu \mid m,l,\alpha,\beta) \propto \mu^{m+\alpha-1}(1-\mu)^{l+\beta-1}$
其中

l=N−m $l=N-m$ ，即为未射中的次数。可以看到关

μ $\mu$ 的函数形式与先验分布相同。这反映了先验关于似然函数的共轭性质。实际上，它依然是一个Beta分布，对比Beta分布的公式，得到归一化系数，则

p (μ ∣ m, l, α, β) = Γ ( m + α + l + β ) Γ ( m + α ) Γ ( l + β ) μ m + α - 1 (1 - μ) l + β - 1

$p(\mu \mid m,l,\alpha,\beta) = \frac{\Gamma(m+\alpha+l+\beta)}{\Gamma(m+\alpha)\Gamma(l+\beta)}\mu^{m+\alpha-1}(1-\mu)^{l+\beta-1}$
如果我们的目标是尽可能好地预测下一次试验的输出，那么我们必须估计给定观测数据集

D ${ D}$ 的情况下，x的预测分布。则这个预测分布的形式为

p (x = 1 ∣ D) = \int 10 p (x = 1 ∣ μ) p (μ ∣ D) d x = \int 10 μ p (μ ∣ D) d μ = E [μ ∣ D]

$p(x=1 \mid { D}) = \int_0^1 p(x=1 \mid \mu)p(\mu \mid { D}){\rm d}x = \int_0^1\mu p(\mu \mid { D}){\rm d}\mu=E[\mu \mid { D}]$
后验分布为Beta分布则：

p (x = 1 ∣ D) = m + α m + α + l + β

$p(x=1 \mid { D}) = \frac{m+\alpha}{m+\alpha+l+\beta}$
记住这个结论。这也可以当做参数

μ $\mu$ 的估计值。

2.3重点来了

1.似然函数乘上先验Beta分布后，变成的新的Beta分布是在原来Beta分布的基础上使得 $\alpha$ 的值变大了 $m$ ， $\beta$ 的值变大了 $l$ 。而 $m$ 和 $l$ 分别为数据集中x=1(射中)和x=0(未射中)的次数。那么完全可以把先验Beta分布的 $\alpha$ 和 $\beta$ 看成是x=1（射中）和x=0(未射中)的次数。用这样的观点来看，就完全可以处理流式的数据（或者将大量数据不必一次性训练，而是分批导入内存训练），获得了一部分观察值后原来的后验概率就可以当做是先验分布，而新获得的数据作为似然函数，相乘的结果仍然是Beta分布，每个阶段都是Beta分布，每个阶段每当观察到一次x=1就把 $\alpha$ 的值增加1，而观测到x=0就把 $\beta$ 增加1。从最后的公式来看，当数据越来越多，最初先验 $\alpha$ 和 $\beta$ 的影响也就越来越小，估计也就越来越接近真实情况（前提是原有分布不变化，采样越多越接近真实情况）。
2.从Beta分布的方差公式来看，当 $\alpha\to \infty$ 或者 $\beta\to \infty$ 的方差就趋近于零，那么是不是贝叶斯学习能够有这样的性质：随着观测到是数据越来越多，后验概率表示的不确定性将持续下降。通过证明，答案是：平均情况来看是这样的，而对于特定的数据集，有可能会后验方差大于先验方差。
3.第二种理解，就是把 $\alpha$ 和 $\beta$ 看成是拉普拉斯平滑项。拉普拉斯平滑常见的应用场景是在朴素贝叶斯估计的时候为防止某个因素因为在训练集中未出现而导致概率为零。这里如果没有 $\alpha$ 和 $\beta$ 时，如果 $m$ 为零或者 $l$ 为零则会出现上文例子中提到的极端情况，而这些极端情况通常是因为数据量不足而导致的，从而导致不能够预测真实情况。所以从结果上看， $\alpha$ 和 $\beta$ 相当于拉普拉斯平滑项。多提一句，在LDA主题模型中，用吉布斯采样求解的方法，最后的结果其实就可以看成是加了拉普拉斯平滑后的数词。

3.多项式分布

这其实就是二项分布的推广而已

3.1多点分布

两点分布是用射击，只能取两种可能值。多点分布就是在扔骰子，它有6种互斥的可能取值。用一个向量来表示，该随机变量。假设某次特定的观测恰好对应于 $x_3=1$ （投出了点数3）的状态，那么 $\vec{x}$ 可以表示为：

x ⃗ = (0, 0, 1, 0, 0, 0) T

$\vec{x}=(0,0,1,0,0,0)^T$
这里满足

∑Kk=1xk=1 $\sum_{k=1}^K x_k=1$ ，用

μk $\mu_k$ 表示

xk=1 $x_k=1$ 的概率那么

x⃗ $\vec{x}$ 的分布就是

p (x ⃗ ∣ μ ⃗) = \prod k = 1 K μ x k k

$p(\vec{x} \mid \vec{\mu})=\prod_{k=1}^K \mu_k^{x_k}$
其中

μ⃗ =(u1,...,uk)T $\vec{\mu}=(u_1,...,u_k)^T$ 参数

μk $\mu_k$ 要满足

uk≥0 $u_k \geq 0$ 和

∑kuk=1 $\sum_{k}u_k=1$
求期望为：

E [x ⃗ ∣ μ ⃗] = \sum x p (x ⃗ ∣ μ ⃗) x ⃗ = (u 1, u 2, . . ., u k) T = μ ⃗

$E[\vec{x} \mid \vec{\mu}]=\sum_x p(\vec{x} \mid \vec{\mu})\vec{x}=(u_1,u_2,...,u_k)^T=\vec{\mu}$

3.2多项分布

同二项分布一样，多点分布独立重复N次就是多项分布。（其实有时可以不必区分这么严格）
对 $\vec{\mu}$ 做参数估计，肯定是要对让多点分布独立重复N次，得到观测数据集 ${ D}$ 观测值分别为 $x_1,x_2,...x_N$ 。对应的似然函数的形式为

p (D ∣ μ ⃗) = \prod n = 1 N \prod k = 1 K μ x n k k = \prod k = 1 K u (\sum n x n k) k = \prod k = 1 K μ m k k

$p({ D} \mid \vec{\mu})=\prod_{n=1}^N\prod_{k=1}^K\mu_k^{x_{nk}}=\prod_{k=1}^Ku_k^{({\sum_nx_{nk}})}=\prod_{k=1}^K\mu_k^{m_k}$
其中

mk=∑nxnk $m_k=\sum_nx_{nk}$ 表示

xk=1 $x_k=1$ 的观测次数，这被称为这个分布的充分统计量（sufficient statistics）
为找到

μ⃗ $\vec{\mu}$ 的最大似然解，需要是关于

uk $u_k$ 的函数

lnp(D∣μ) $\ln p({ D}\mid \mu)$ 最大,并且限制

μk $\mu_k$ 和必须等于1。通过拉格朗日乘子法，即最大化：

\sum k = 1 K m k ln μ k + λ (\sum k = 1 K μ k - 1)

$\sum_{k=1}^K m_k \ln \mu_k +\lambda (\sum_{k=1}^K \mu_k -1)$
令其关于

μk $\mu_k$ 的导数等于0，则有：

μk=−mKλ $\mu_k=-\frac{m_K}{\lambda}$ ,有限制

∑kμk=1 $\sum_k \mu_k=1$ ，则

λ=−N $\lambda=-N$ ,因此得到最大似然解：

μ M L k = m k N

$\mu_k^{ML}=\frac{m_k}{N}$
就是N次观测中

xk=1 $x_k=1$ 的观测所占的比例。
多项分布可以写成：

M u l t (m 1, m 2, . . . ., m k ∣ μ, N) = (N m 1 m 2 . . . m k) \prod k = 1 K μ m k k

$Mult(m_1,m_2,....,m_k \mid \mu,N)={N \choose m_1m_2...m_k}\prod_{k=1}^K\mu_k^{m_k}$

4.Dirchlet分布

Dirchlet分布其实是Beta分布的推广，直接给出其分布形式：

D i r (μ ⃗ ∣ α ⃗) = Γ ( α 1 + α 2 . . + α K ) Γ ( α 1 ) Γ ( α 2 ) . . . Γ ( α k ) \prod k = 1 K μ a k - 1 k

$Dir(\vec{\mu}\mid\vec{\alpha})=\frac{\Gamma(\alpha_1+\alpha_2..+\alpha_K)}{\Gamma(\alpha_1)\Gamma(\alpha_2)...\Gamma(\alpha_k)}\prod_{k=1}^K\mu_k^{a_k-1}$
还是用似然函数乘以先验，得到参数

{μk} $\lbrace \mu_k \rbrace$ 的后验分布，形式为：

p (μ ⃗ ∣ D, α ⃗) \propto \prod k = 1 K μ α k + m k - 1 k

$p(\vec{\mu}\mid{ D},\vec{\alpha}) \propto \prod_{k=1}^K\mu_k^{\alpha_k+m_k-1}$
后验分布又成了Dirchlet分布的形式。确定归一化系数有：

p (μ ⃗ ∣ D, α ⃗) = D i r (μ ⃗ ∣ α ⃗ + m ⃗ ） = Γ ( α 1 + . . . + α K + N ) Γ ( α 1 + m 1 ) . . . . . . Γ ( α K + m K ) \prod k = 1 K μ α k + m k - 1 k

$p(\vec{\mu}\mid { D},\vec{\alpha})=Dir(\vec{\mu}\mid \vec{\alpha}+\vec{m}）=\frac{\Gamma(\alpha_1+...+\alpha_K+N)}{\Gamma(\alpha_1+m_1)......\Gamma(\alpha_K+m_K)}\prod_{k=1}^K\mu_k^{\alpha_k+m_k-1}$
其中