机器学习-贝叶斯估计

贝叶斯估计

假设我们有样本D={X_{1}~X_{n}},并且已知x~N(\mu ,\sigma ^{^{2}})其中\mu未知,\sigma ^{2}已知,又已知\mu~N(\mu _{_{0}},\sigma _{0}^{2}).

p(x|D)=\int_{\mu }^{ }p(x,\mu|D)d\mu =\int_{\mu }^{ }p(x|\mu ,D)p(\mu |D)d\mu =\int_{\mu }^{ }p(x|\mu)p(\mu |D)d\mu,其中p(x|D)表示在给定的样本条件

下来估计x的概率密度。我们需要求p(x|\mu)p(\mu|D).

首先p(\mu |D)=\frac{p(D|\mu)p(\mu)}{p(D)}=\frac{p(D|\mu)p(\mu)}{\int p(D|\mu)p(\mu)}=\alpha p(D|\mu)p(\mu),其中\frac{1}{\int p(D|\mu)p(\mu)}=\alpha

p(\mu |D)=\alpha p(D|\mu)p(\mu)=\alpha \prod_{i=1}^{n}p(x_{i}|\mu)p(\mu)=\alpha\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi }\sigma}e^{\frac{(x_{i}-\mu )^{2}}{-2}}\frac{1}{\sqrt{2\pi }\sigma _{0}}e^{\frac{(\mu -\mu _{0})^{2}}{-2}}

=\alpha \frac{1}{(\sqrt{2\pi }\sigma )^{n}\sqrt{2\pi }\sigma _{0}}e^{\frac{\sum_{i=1}^{n}(x_{i}-\mu )^{2}+(\mu -\mu _{0})^{2}}{-2}}=\alpha ^{'}e^{\frac{\frac{\sum_{i=1}^{n}x_{i}^{2}}{\sigma ^{2}}-\frac{(2\sum_{i=1}^{n}x_{i})\mu }{\sigma ^{2}}+\frac{n\mu ^{2}}{\sigma ^{2}}+\frac{\mu ^{2}}{\sigma _{0}^{2}}-\frac{2\mu \mu_{0} }{\sigma _{0}^{2}}+\frac{\mu_{0}^{2} }{\sigma _{0}^{2}}}{-2}},其中{\alpha }'=\alpha \frac{1}{(\sqrt{2\pi }\sigma )^{n}\sqrt{2\pi }\sigma _{0}}

={\alpha }'e^{\frac{(\frac{\sum_{i=1}^{n}x_{i}^{2}}{\sigma ^{2}}+\frac{\mu _{0}^{2}}{\sigma _{0}^{2}})}{-2}}e^{\frac{((\frac{n}{\sigma ^{2}}+\frac{1}{\sigma _{0}^{2}})\mu ^{2}-2(\frac{\sum_{i}^{n}x_{i}}{\sigma ^{2}}+\frac{\mu _{0}}{\sigma _{0}^{2}})\mu )}{-2}}={\alpha }''e^{\frac{((\frac{n}{\sigma ^{2}}+\frac{1}{\sigma _{0}^{2}})\mu ^{2}-2(\frac{\sum_{i}^{n}x_{i}}{\sigma ^{2}}+\frac{\mu _{0}}{\sigma _{0}^{2}})\mu )}{-2}},(其中{\alpha }''=={\alpha }'e^{\frac{(\frac{\sum_{i=1}^{n}x_{i}^{2}}{\sigma ^{2}}+\frac{\mu _{0}^{2}}{\sigma _{0}^{2}})}{-2}})。

=\frac{1}{\sqrt{2\pi }\sigma _{n}}e^{\frac{(\frac{\mu -\mu _{n}}{\sigma _{n}})^{2}}{-2}}=\frac{1}{\sqrt{2\pi }\sigma _{n}}e^{\frac{(\frac{\mu ^{2}}{\sigma _{n}^{2}}-2\frac{\mu_{n} \mu }{\sigma _{n}^{2}}+\frac{\mu _{n}^{2}}{\sigma _{n}^{2}})^{2}}{-2}},\mu ^{2},\mu前面的系数相等则有:\frac{1}{\sigma _{n}^{2}}=\frac{n}{\sigma ^{2}}+\frac{1}{\sigma _{0}^{2}},\frac{\mu _{0}}{\sigma _{n}^{2}}=\frac{\sum_{i}^{n}x_{i}}{\sigma ^{2}}+\frac{\mu _{0}}{\sigma _{0}^{2}}

\sigma _{n}^{2}=\frac{\sigma \sigma _{0}^{2}}{n\sigma_{0}^{2}+\sigma ^{2}},\mu _{n}=\frac{\sigma _{0}^{2}\sum_{i=1}^{n}x_{i}}{n\sigma _{0}^{2}+\sigma ^{2}}+\frac{\sigma ^{2}\mu _{0}}{n\sigma _{0}^{2}+\sigma ^{2}},所以p(\mu |D)~N(\mu _{n},\sigma _{n}^{2}),可以看出当n趋于无穷大的时候:

\lim_{n->\infty }\mu _{n}=\lim_{n->\infty }\frac{\sigma _{0}^{2}\sum_{i=1}^{n}x_{i}}{n\sigma _{0}^{2}+\sigma ^{2}}+\frac{\sigma ^{2}\mu _{0}}{n\sigma _{0}^{2}+\sigma ^{2}}=\frac{1}{n}\sum_{i=1}^{n}x_{i},当n趋于无穷大时贝叶斯估计等于最大似然估计。

p(x|D)=\int_{\mu }^{ }p(x|\mu)p(\mu |D)d\mu=\int_{\mu}^{ }\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{(x-\mu )^{2}}{-2\sigma ^{2}}}\frac{1}{\sqrt{2\pi }\sigma _{n}}e^{\frac{(\mu -\mu _{n})^{2}}{-2\sigma _{n}^{2}}}d\mu =\frac{1}{2\pi \sigma \sigma _{n}}e^{(\frac{(x\sigma _{n}^{2}+\sigma ^{2}\mu _{n})^{2}}{2\sigma ^{2}\sigma _{n}^{2}(\sigma ^{2}+\sigma _{n}^{2})})-(\frac{x^{2}\sigma _{n}^{2}+\sigma ^{2}\mu _{n}}{\sigma ^{2}\sigma _{n}^{2}})} \int_{\mu }^{ }e^{\frac{(\sigma ^{2}+\sigma _{n}^{2})(\mu -\frac{x\sigma _{n}^{2+\sigma ^{2}\mu _{n}}}{\sigma ^{2}\sigma _{n}^{2}})^{2}}{-2(\sigma ^{2}\sigma _{n}^{2})}}d\mu

\int_{\mu }^{ }e^{\frac{(\sigma ^{2}+\sigma _{n}^{2})(\mu -\frac{x\sigma _{n}^{2+\sigma ^{2}\mu _{n}}}{\sigma ^{2}\sigma _{n}^{2}})^{2}}{-2(\sigma ^{2}\sigma _{n}^{2})}}d\mu=f(\sigma ^{2},\sigma _{n}^{2}),因为该积分只与\sigma ,\sigma _{n}有关。

上式继续化简:=\frac{1}{2\pi \sigma \sigma _{n}}f(\sigma^{2}, \sigma_{n}^{2} )e^{\frac{(\mu -\mu _{n})^{2}}{-2(\sigma ^{2}+\sigma _{n}^{2})}},解得p(x|D)~N(\mu _{n},\sigma^{2} +\sigma _{n}^{2}).

总结:

当上式中整个积分不好求的时候,我们可以求最大后验估计:

p(\mu |D)=\frac{p(D|\mu)p(\mu)}{p(D)},这样计算比较容易。

如果\mu没有已知的先验分布的话,即先验分布是扁平的,就是上式中p(\mu )不变,

那么最大后验估计等于最大似然估计p(D|\mu )

我们再来看一下:\mu _{n}=\frac{\sigma _{0}^{2}\sum_{i=1}^{n}x_{i}}{n\sigma _{0}^{2}+\sigma ^{2}}+\frac{\sigma ^{2}\mu _{0}}{n\sigma _{0}^{2}+\sigma ^{2}}=(\frac{\frac{n}{\sigma ^{2}}}{\frac{n}{\sigma ^{2}}+\frac{1}{\sigma _{0}^{2}}})m+(\frac{\frac{1}{\sigma _{0}^{2}}}{\frac{n}{\sigma ^{2}}+\frac{1}{\sigma _{0}^{2}}})\mu _{0},其中m=\frac{1}{n}\sum_{i=1}^{n}x_{i}

m是样本均值,上式可以看出贝叶斯估计是样本均值和先验均值\mu_{0}的加权平均。

并且m和\mu _{0}哪一个方差小,哪一个占的比重就大。

当n趋于无穷大时贝叶斯估计更逼近样本均值。

当先验的方差\sigma _{0}^{2}较小时,即关于先验概率的不确定性较少时,或者样本数n较小时,

贝叶斯估计更加依赖先验均值。

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值