生成模型

最新推荐文章于 2024-03-23 16:22:49 发布

四去六进一

最新推荐文章于 2024-03-23 16:22:49 发布

阅读量3.5k

点赞数

分类专栏：机器学习推导文章标签：生成模型极大似然相对熵软k-means

本文链接：https://blog.csdn.net/icefire_tyh/article/details/69808029

版权

机器学习推导专栏收录该内容

1 篇文章 1 订阅

订阅专栏

生成模型

　　生成模型对数据的潜在分布进行学习，之后便可以使用贝叶斯法则预测最优分类。然而困难在于，对于数据的潜在分布学习，通常比预测器的训练还要困难。有的时候生成式的方法是合理的，比如模型的参数估计比较容易，或者对学习任务不明确，或者是对数据本身理解的时候。就像下面这个例子：
　　

极大似然估计

假设有0，1号两个桶，有m个球随机的落入两个桶中，落入哪个桶则记录为那个桶的编号，那么如何去估计这些编号的概率分布？
抽象一下也就可以看出在数据及S={0,1,1,1,0,0……}上，假设落入桶1号的概率是θ,那么如何对θ进行估计。一个直观的想法就是统计出1出现的频率，即

$\hat{θ}=\frac{1}{m}\sum_i{x_i}$

显然 $E_S(\hat{θ})=θ$ ,即 $\hat{θ}$ 是θ的无偏估计，又由于 $\hat{θ}$ 是m个独立同分布的随机变量的均值，由Hoeffding不等式知

$P\{|\hat{θ}-θ| \leq \sqrt{\frac{log(2/δ)}{2m}}\} \geq 1-δ$

对所有的δ成立
$\hat{θ}$ 的另外一种解释，即它是参数θ的极大似然估计。样本的生成概率

$P(S)=\prod_i{θ^{x_i}(1-θ)^{1-x_i}}$

对上式取对数，得到对数似然函数

$L(S,θ)=log(θ)\sum_i{x_i}+log(1-θ)\sum_i(1-x_i)$

对上式求导并令倒数为0，最终求出 $\hat{θ}$ 为最开始的式子。
那么极大似然估计一定是无偏估计吗？
考虑一个一维正态分布的例子

$P(x;μ,σ^2)=\frac{1}{σ\sqrt{2\pi}}exp(-\frac{(x-μ)^2}{2σ^2})$

对数似然函数

$L(S,θ)=\frac{1}{2σ^2}\sum_i(x-μ)^2-mlog(σ\sqrt{2\pi})$

分别让上式对μ和σ^2的偏导数为0，求出极大似然估计

$\hat{μ}=\frac{1}{m}\sum_i{x_i}$

$\hat{σ^2}=\frac{1}{m}\sum(x_i-\hat{μ})^2$

显然 $\hat{μ}$ 是μ的无偏估计，但是

$E[\hat{σ^2}]=E[\frac{1}{m}\sum(x_i-\hat{μ})^2]=\frac{m+1}{m}σ^2$

由此可以推出当m趋近无穷大的时候， $\hat{σ^2}=σ^2$ ，即 $\hat{σ^2}$ 是σ^2的一致估计，而并不是无偏估计。

极大似然与经验风险最小化
当定义不同的损失函数时，经验风险有不同的表达式。极大似然相当于特定的损失函数的经验风险，即对数损失函数

$l(θ,x)=-log(P_θ(x))$

那么极大似然准则就是对数损失函数的经验风险最小化

$argmax_θ \sum_i(log(P_θ(x))) = argmin_θ \sum_il(θ,x_i)$

求出极大似然估计的 $\hat{θ}$ 后，那么与数据潜在分布θ的真实风险就是

$E_{P_θ(x)}[l(\hat{θ},x)]=-\sum_xP_θ(x)logP_\hat{θ}(x)$

极大似然估计的过拟合
估计的优劣都可以用真实风险来评估，回到最开始的例子，假如θ的真实值非常小，那么样本分布有很大的概率是全0，此时的极大似然估计 $\hat{θ}=0$ ，带入真实风险中计算得出真实风险为 $log(1/0)=∞$ 。
解决过拟合的一种方法就是加入正则化项，这里可以仿照贝叶斯分类器中的拉普拉斯平滑来适当解决一下问题。
还是最开始的例子，对于m个已知样本，直接加入0，1两个伪样本一起去分析，那么此时的损失是

$L(S,θ)=\sum_il(θ,x_i)+log(θ)+log(1-θ)$

该正则化极大似然估计的解为

$\hat{θ}'=\frac{1}{m+2}(1+\sum_i{x_i})$

很显然 $E[\hat{θ}']=\frac{1+mθ}{m+2}$ 也是θ的一致估计，二者之差

$|\hat{θ}'-θ|=|\hat{θ}'-E[\hat{θ}']+E[\hat{θ}']-θ| \leq |\hat{θ}'-E[\hat{θ}']|+|E[\hat{θ}']-θ|$

后者 $|E[\hat{θ}']-θ|=|\frac{1-2θ}{m+2}|$ 当m较大时趋近于0，那么仅考虑前面一项

$|\hat{θ}'-E[\hat{θ}']|=\frac{m}{m+2}|\hat{θ}-θ|$

由上面的结论可知

$P\{|\hat{θ}'-E[\hat{θ}']| \leq \sqrt{\frac{mlog(2/δ)}{2(m+2)^2}}\} \geq 1-δ$

即

$P\{|\hat{θ}'-θ]| \leq \sqrt{\frac{mlog(2/δ)}{2(m+2)^2}}\} \geq 1-δ$

对所有的δ成立。
此时的真实损失为

$loss=-\sum_xP_θ(x)logP_{\hat{θ}'}(x)$

写成相对熵形式

$loss=\sum_xP_θ(x)log\frac{P_θ(x)}{P_{\hat{θ}'}(x)}+\sum_xP_θ(x)log\frac{1}{P_θ(x)}$

加号后面的部分是与 $\hat{θ}'$ 无关的常数，那么相对熵 $\sum_xP_θ(x)log\frac{P_θ(x)}{P_{\hat{θ}'}(x)}$ 决定了loss的大小。根据Jensen不等式，对于log这种凸函数有

$\sum_xP_θ(x)log\frac{P_θ(x)}{P_{\hat{θ}'}(x)} \leq log(\sum_xP_θ(x)\frac{P_θ(x)}{P_{\hat{θ}'}(x)} )$

带入x可能的取值0，1得

$\sum_xP_θ(x)log\frac{P_θ(x)}{P_{\hat{θ}'}(x)} \leq log(\frac{θ^2}{\hat{θ}'}+\frac{(1-θ)^2}{(1-\hat{θ}')})=log(\frac{θ^2-\hat{θ}'-2θ\hat{θ}'}{\hat{θ}'(1-\hat{θ}')})=log(1+\frac{(θ-\hat{θ}')^2}{\hat{θ}'(1-\hat{θ}')})$

由于上面求出了 $|\hat{θ}'-θ]|$ 的概率界，那么

$P\{(\hat{θ}'-θ)^2 \leq \frac{mlog(2/δ)}{2(m+2)^2}\} \geq 1-δ$

对所有的δ成立。
而 $\hat{θ}'=\frac{1}{m+2}(1+\sum_i{x_i})$ ,所以 $\frac{1}{m+2} \leq \hat{θ}' \leq \frac{m+1}{m+2}$
那么 $\frac{m+1}{(m+2)^2} \leq \hat{θ}'(1-\hat{θ}') \leq \frac{1}{4}$ ,得到

$P\{\frac{(θ-\hat{θ}')^2}{\hat{θ}'(1-\hat{θ}')} \leq \frac{mlog(2/δ)}{2(m+1)}\} \geq 1-δ$

取 $δ=0.05$ ，那么推出 $loss \leq log(1+\frac{mlog40}{2(m+1)})+∑xPθ(x)logPθ(x)$ 成立的概率大于95%，从而控制了最差情况下的损失量。

隐变量与EM算法

在生成模型中，我们通常假设数据通过实力空间中根据一个或多个分布抽样而来。有时候借助隐变量可以很好的表达这些分布。隐变量广泛的应用于混合模型中，最常见的比如高斯混合模型。
混合模型也有区分，类比于硬聚类与软聚类，硬聚类认为某个样本只会属于一个类别，而软聚类则认为样本按概率属于每种分类。同样对于混合模型，可以认为某个样本只是从某一个分布中采样，也可能是多个分布采样后混合而成。
为了简化，这里用一维的高斯混合模型举例，假设样本x由k个高斯分布混合Y而成，每个混合的权重用c表示，x从第k个分布抽样出来的概率是

$P(X=x|Y=k)=\frac{1}{σ\sqrt{2\pi}}exp(-\frac{(x-μ)^2}{2σ^2})$

于是x的生成概率可以写成

$P(X=x)=\sum_yP(Y=k)P(X=x|Y=k)$

那么对于样本集，我们需要做的是求出使对数似然最大化的参数θ(σ,μ,c)，对数似然写为

$L(θ)=\sum_ilogP_θ(X=x_i)$

由于 $P_θ(X=x_i)$ 中含有累加，对于对数函数中有累加的全局最优化并不好做，那么可以使用一个基于迭代的方法去搜索对数似然的局部最优结果，这就是EM算法。
EM算法的思路是，同时考虑隐变量和参数不好求解，但是固定其中一个求另一个却很简单，那么便每次固定一个，去优化另一个，如此迭代直到收敛。
这里使用一个隐变量Q(i,k)来描述 $x_i$ 从第k个高斯分布抽样出来的概率，那么

$Q(i,k)=\frac{P(Y=k)P(X=x|Y=k)}{P(X=x)}$

可以看出，对于固定的参数θ(σ,μ,c)，Q(i,k)很容易求出来
那么先前的对数似然可以写成

$L(Q,θ)=\sum_i\sum_kQ(i,k)log(P_θ(X=x_i,Y=k))$

此时对数函数中不再包含累加，固定住Q，使L最大的参数θ也会很容易求出。
然后根据新的θ求出新的Q，根据新的Q求出新的θ…………………………………..
其中求Q的步骤称为E步，即期望步骤，求θ成为M步，即最大化步骤。

EM算法的正确性
EM算法的每一次迭代都是更优的解吗？
考虑一种更一般的表达式

$L(θ)=logP(X|θ)$

要证明的是 $L(θ^{t+1}) \geq L(θ^t)$
当 $P(X|θ)$ 并不友好的时候(比如前面的 $P(x_i|θ)$ 中含累加),直接优化会非常的困难，此时加入隐变量Z，把依赖关系从最开始的 $x \rightarrow θ$ 变成 $X \rightarrow Z \rightarrow θ$ ，改写 $L(θ)$ 为

$L(θ)=logP(X,Z|θ)/P(Z|X,θ)=logP(X,Z|θ)-logP(Z|X,θ)$

对两边以 $P(Z|X,θ^t)$ 求期望，左边不包含 $Z$ ，所以求期望后值不变，即

$L(θ)=\sum_ZP(Z|X,θ^t)logP(X,Z|θ)-\sum_ZP(Z|X,θ^t)logP(Z|X,θ)$

为了方便，记左边式子为 $Q(θ,θ^t)$ ，右边的式子为 $H(θ,θ^t)$
在EM算法中，为了计算简便，只会对Q(θ,θ^t)进行最大化，求出 $θ^{t+1}=argmax_θ Q(θ,θ^t)$
此时保证了 $Q(θ^{t+1},θ^t) \geq Q(θ^t,θ^t)$ ，但是一定能保证 $L(θ^{t+1}) \geq L(θ^t)$ 吗？
答案是可以，因为 $H(θ^{t+1},θ^t) \leq H(θ^t,θ^t)$ 是肯定成立的。
设函数