贝叶斯估计
假设我们有样本D={
~
},并且已知x~
其中
未知,
已知,又已知
~
.
,其中
表示在给定的样本条件
下来估计x的概率密度。我们需要求
和
.
首先
,其中![\frac{1}{\int p(D|\mu)p(\mu)}=\alpha](https://private.codecogs.com/gif.latex?%5Cfrac%7B1%7D%7B%5Cint%20p%28D%7C%5Cmu%29p%28%5Cmu%29%7D%3D%5Calpha)
,其中![{\alpha }'=\alpha \frac{1}{(\sqrt{2\pi }\sigma )^{n}\sqrt{2\pi }\sigma _{0}}](https://private.codecogs.com/gif.latex?%7B%5Calpha%20%7D%27%3D%5Calpha%20%5Cfrac%7B1%7D%7B%28%5Csqrt%7B2%5Cpi%20%7D%5Csigma%20%29%5E%7Bn%7D%5Csqrt%7B2%5Cpi%20%7D%5Csigma%20_%7B0%7D%7D)
![={\alpha }'e^{\frac{(\frac{\sum_{i=1}^{n}x_{i}^{2}}{\sigma ^{2}}+\frac{\mu _{0}^{2}}{\sigma _{0}^{2}})}{-2}}e^{\frac{((\frac{n}{\sigma ^{2}}+\frac{1}{\sigma _{0}^{2}})\mu ^{2}-2(\frac{\sum_{i}^{n}x_{i}}{\sigma ^{2}}+\frac{\mu _{0}}{\sigma _{0}^{2}})\mu )}{-2}}](https://private.codecogs.com/gif.latex?%3D%7B%5Calpha%20%7D%27e%5E%7B%5Cfrac%7B%28%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dx_%7Bi%7D%5E%7B2%7D%7D%7B%5Csigma%20%5E%7B2%7D%7D+%5Cfrac%7B%5Cmu%20_%7B0%7D%5E%7B2%7D%7D%7B%5Csigma%20_%7B0%7D%5E%7B2%7D%7D%29%7D%7B-2%7D%7De%5E%7B%5Cfrac%7B%28%28%5Cfrac%7Bn%7D%7B%5Csigma%20%5E%7B2%7D%7D+%5Cfrac%7B1%7D%7B%5Csigma%20_%7B0%7D%5E%7B2%7D%7D%29%5Cmu%20%5E%7B2%7D-2%28%5Cfrac%7B%5Csum_%7Bi%7D%5E%7Bn%7Dx_%7Bi%7D%7D%7B%5Csigma%20%5E%7B2%7D%7D+%5Cfrac%7B%5Cmu%20_%7B0%7D%7D%7B%5Csigma%20_%7B0%7D%5E%7B2%7D%7D%29%5Cmu%20%29%7D%7B-2%7D%7D)
,(其中
)。
,
前面的系数相等则有:
,![\frac{\mu _{0}}{\sigma _{n}^{2}}=\frac{\sum_{i}^{n}x_{i}}{\sigma ^{2}}+\frac{\mu _{0}}{\sigma _{0}^{2}}](https://private.codecogs.com/gif.latex?%5Cfrac%7B%5Cmu%20_%7B0%7D%7D%7B%5Csigma%20_%7Bn%7D%5E%7B2%7D%7D%3D%5Cfrac%7B%5Csum_%7Bi%7D%5E%7Bn%7Dx_%7Bi%7D%7D%7B%5Csigma%20%5E%7B2%7D%7D+%5Cfrac%7B%5Cmu%20_%7B0%7D%7D%7B%5Csigma%20_%7B0%7D%5E%7B2%7D%7D)
,
,所以
~
,可以看出当n趋于无穷大的时候:
,当n趋于无穷大时贝叶斯估计等于最大似然估计。
令
,因为该积分只与
有关。
上式继续化简:
,解得
~
.
总结:
当上式中整个积分不好求的时候,我们可以求最大后验估计:
,这样计算比较容易。
如果
没有已知的先验分布的话,即先验分布是扁平的,就是上式中
不变,
那么最大后验估计等于最大似然估计![p(D|\mu )](https://private.codecogs.com/gif.latex?p%28D%7C%5Cmu%20%29)
我们再来看一下:![\mu _{n}=\frac{\sigma _{0}^{2}\sum_{i=1}^{n}x_{i}}{n\sigma _{0}^{2}+\sigma ^{2}}+\frac{\sigma ^{2}\mu _{0}}{n\sigma _{0}^{2}+\sigma ^{2}}](https://private.codecogs.com/gif.latex?%5Cmu%20_%7Bn%7D%3D%5Cfrac%7B%5Csigma%20_%7B0%7D%5E%7B2%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dx_%7Bi%7D%7D%7Bn%5Csigma%20_%7B0%7D%5E%7B2%7D+%5Csigma%20%5E%7B2%7D%7D+%5Cfrac%7B%5Csigma%20%5E%7B2%7D%5Cmu%20_%7B0%7D%7D%7Bn%5Csigma%20_%7B0%7D%5E%7B2%7D+%5Csigma%20%5E%7B2%7D%7D)
,其中
,
m是样本均值,上式可以看出贝叶斯估计是样本均值和先验均值
的加权平均。
并且m和
哪一个方差小,哪一个占的比重就大。
当n趋于无穷大时贝叶斯估计更逼近样本均值。
当先验的方差
较小时,即关于先验概率的不确定性较少时,或者样本数n较小时,
贝叶斯估计更加依赖先验均值。