贝叶斯估计

一、贝叶斯估计的基本概念:

(1)在用于分类的贝叶斯决策中,最优的条件可以是最小错误率或最小风险。在这里,对连续变量\theta,我们假定把它估计为\hat{\theta}所带来的损失为\lambda(\theta,\hat{\theta}),也成为损失函数。

(2)设样本的取值空间为E^d,参数的取值空间为\phi,当用\hat{\theta}来作为估计时总期望风险为:

                               R=\int_{E^d}\int_{\phi}\lambda(\hat{\theta},\theta)p(x,\theta)d\theta dx\int_{E^d}\int_{\phi}\lambda(\hat{\theta},\theta)p(\theta|x)p(x)d\theta dx

这里,\lambda(\hat{\theta},\theta)表示样本的损失,p(x,\theta)表示样本的分类概率。

(3)①我们定义在样本x下的条件风险(即样本取值固定时)为:

                                                       R(\hat{\theta}|x)=\int_{\phi}\lambda(\hat{\theta},\theta)p(\theta|x)d\theta

那么,R就可以写作:

                                                          R=\int_{E^d}R(\hat{\theta}|x)p(x) dx

② 求最小期望风险,就等于对所有可能的x求条件风险最小。在有限样本集合X=(x_1,x_2,...x_N)的情况下,我们所能做的就是所有的样本求条件风险最小,即:

                                       {\theta}^\ast =argminR(\hat{\theta}|X)=\int_\phi\lambda(\hat{\theta},\theta)p(\theta|X)d\theta

③ 在连续的情况下,当损失函数是平方误差损失函数,即:

                                                                \lambda(\hat{\theta},\theta)=(\theta-\hat{\theta})^2

此时,在样本x条件下\theta的贝叶斯估计量{\theta}^\ast是在给定x下\theta的条件期望:

                                                   {\theta}^\ast=E(\theta|x)=\int_{\phi}\theta p({\theta}|x) d\theta

由上所述,我们可知,在最小平方误差损失函数下,贝叶斯估计的步骤可以写作:

①根据对问题的认识或猜测来确定\theta的先验分布密度p(\theta)

②由于样本是独立同分布的,而且已知样本密度函数的形式p(x|\theta),可以形式上求出样本集X的联合分布为

                                                         p(X|\theta)=\prod_{i=1}^{N}p(x_i|\theta)

③ 利用贝叶斯公式求\theta的后验概率分布:

                                                  p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{\int_\theta p(X|\theta)\cdot p(\theta) d\theta}

④ \theta的贝叶斯估计量是:

                                                        \theta^\ast =\int_\theta \theta\cdot p(\theta|X) d\theta

二、正态分布下的贝叶斯估计:

① 在一维正态分布模型中,假设模型的均值为待估计参数,方差\sigma^2为已知。则我们可以把分布密度写作:

                                                   p(x|u)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-u)^2}{2\sigma^2}}

② 假设均值u的先验分布也是正态分布,其均值为u_0,方差为\sigma^2_0。即,

                                                  p(u)=\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{(u-u_0)^2}{2\sigma_0^2}}

③ 对均值u进行估计,我们可以得到(其中X表示有限样本集合):

                                             p(u|X)=\frac{p(X|u)\cdot p(u)}{\int_u p(X|u)\cdot p(u) du}

由于分母部分是用来对估计出的后验概率进行归一化的常数项,故先计算分子部分:

                          p(X|u)p(u)=\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{(u-u_0)^2}{2\sigma_0^2}} \prod_{i=1}^{N}(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-u)^2}{2\sigma^2}})

④ 将所有不依赖于u的量都写入一个常数中,可得:

                                                p(X|u)p(u)=\alpha e^{-\frac{(u-u_N)^2}{2\sigma_N^2}}

进一步可得到p(u|X)也是一个正态分布,即有:

                                               p(u|X)=\frac{1}{\sqrt{2\pi}\sigma_N} e^{-\frac{(u-u_N)^2}{2\sigma_N^2}}

这里,参数满足:

                                              \left\{\begin{matrix} \frac{1}{\sigma_N^2}=\frac{1}{\sigma_0^2}+\frac{N}{\sigma^2}\\ u_N=\sigma_N^2(\frac{u_0}{\sigma_0^2}+\frac{\sum_{i=1}^{N}x_i}{\sigma^2}) \end{matrix}\right.

⑤ ④中的p(u|X)告诉我们,待估计的样本密度函数的均值\hat{u}服从均值为u_N,方差为\sigma_N^2的正态分布。因此,

                                             \hat{u}=\int up(u|X)du=u_N

⑥ 在得到p(u|X)之后,我们可以利用p(x|X)=\int_\theta p(x|\theta)p(\theta|X)d\theta来得到p(x|X)\sim N(u_N,\sigma^2+\sigma^2_N)。这里,增加项\sigma^2_N在样本量趋于无穷大时,该值趋于0。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值