25[NLP训练营]Model Estimation

最新推荐文章于 2024-06-24 19:44:27 发布

oldmao_2000

最新推荐文章于 2024-06-24 19:44:27 发布

阅读量213

点赞数

分类专栏： NLP Bootcamp（完结）

本文链接：https://blog.csdn.net/oldmao_2001/article/details/117704873

版权

贝叶斯模型最大似然估计最大后验概率参数估计马尔科夫链蒙特卡罗

关键词由CSDN通过智能技术生成

NLP Bootcamp（完结）专栏收录该内容

30 篇文章 19 订阅

订阅专栏

文章目录

前言
计算 $p(\theta|D)$

公式输入请参考：在线Latex公式

前言

Model Estimation实际上是属于Bayesion model的范畴，所涉及到具体算法或者模型有：LDA、MMSB、Bayesion MF、Bayesion NN/LSTM/Bert/Transformer。
大概有两个流派，一些更具体的推导看这里：

频率派

MLE

要从训练数据D中估计出最好的参数 $\theta^*$ ，最大化likelihood：
$\theta^*=arg\underset{\theta}{\max}p(D|\theta)$
然后用求到的参数 $\theta^*$ 和新样本 $x^{'}$ 来预测新的 $y^{'}$
$p(y'|x',\theta^*)$

MAP

也是要估计估计出最好的参数 $\theta^*$ ，但是和MLE不一样的是MAP是要最大化后验概率：
$\begin{aligned}\theta^*&=arg\underset{\theta}{\max}p(\theta|D)\\ &=arg\underset{\theta}{\max}p(D|\theta)p(\theta)\end{aligned}$
从上面的推导我们可以看到，MAP既考虑了likelihood，又考虑了先验概率 $p(\theta)$
然后用求到的参数 $\theta^*$ 和新样本 $x^{'}$ 来预测新的 $y^{'}$
$p(y'|x',\theta^*)$

小结

无论是MLE还是MAP，都是设计一个目标函数，通过训练和学习，模型最后估算出一个最优解。

贝叶斯派

贝叶斯派不是想要求某一个最优解，而是考虑所有的参数 $\theta$ ，如果参数 $\theta$ 属于某个参数空间，那么贝叶斯派的预测过程可以写为：
$\int_\theta p(y'|x',\theta)\cdot p(\theta|D)d\theta$
上式中，预测值和参数： $x',\theta$ 都是已知的，求的是所有可能的 $\theta$ 的情况。对于训练集 $D$ ，参数 $\theta$ 的分布表示为 $p(\theta|D)$ ，这个相当于模型的参数 $w$ ，不同的参数分布不一样， $w$ 也不一样， $w$ 也就是不同参数对应的权值，然后积分起来（离散情况下就是加权累加）。整个模型不是去学习 $\theta$ 具体的值，而是学习 $p(\theta|D)$ 这个概率。
由于 $\theta$ 属于某个参数空间，是有无穷多个的，因此我们经常采用采样的方式选取一部分出现概率最高的 $\theta$ 来进行积分。

计算 $p(\theta|D)$

上面的预测过程就是要计算 $p(\theta|D)$ ，展开：
$\begin{aligned}p(\theta|D)&=\cfrac{p(D|\theta\cdot p(\theta))}{p(D)}\\ &=\cfrac{p(D|\theta\cdot p(\theta))}{\int _\theta p(D,\theta )d\theta}\\ &=\cfrac{p(D|\theta\cdot p(\theta))}{\int _{\theta_1}\int _{\theta_2}\int _{\theta_3}\cdots\int _{\theta_n} p(D,\theta )d\theta }\end{aligned}$
上式中n为 $\theta$ 的维度，第二个等号用的边缘化公式。最后一个式子的分母非常难计算（exact inference），因此要采用近似的计算方法（approximate inference）。
近似计算用到了蒙特卡罗采样的原理，由于 $\theta$ 属于某个参数空间，是有无穷多个的值，因此我们对这个空间进行采样（可以重复采），用样本来近似计算。
$\int_\theta p(y'|x',\theta)\cdot p(\theta|D)d\theta\\ \approx \cfrac{1}{S}\sum_{s=1}^Sp(y'|x',\theta^s),\theta^s\sim p(\theta|D)$
可以看到，采样后进行的是平均的操作，而不是加权平均的操作，加权平均操作已经在采样过程中近似的做了，因为权重大的被采样的概率越大。
每次在 $\theta$ 空间中进行采样，采样 $S$ 次，每次采样都是互相独立的（蒙特卡罗采样）。
这样的采样效率比较低，当我们采样到比较好的样本的时候，我们可以在该样本的附件继续采样，也会得到较好的样本（locality性质），这样连续的采样不是独立采样，因为第二次采样是根据第一次采样结果来进行的，就变成了一个序列的采样，称为：马尔科夫链蒙特卡罗采样（MCMC: Markov Chain Monte Carlo），这个方法有很多种具体的采样算法：Gibbs sampling（后面讲），Importance sampling，Rejection sampling，Metropolis-Hastings等等。
贝叶斯模型可以看做是集成模型，它考虑了多个 $\theta$ 的可能性。