贝叶斯估计

最新推荐文章于 2024-07-30 17:39:55 发布

沙漠之狐MSFollower

最新推荐文章于 2024-07-30 17:39:55 发布

阅读量5.6k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/LiuPeiP_VIPL/article/details/108525144

版权

机器学习专栏收录该内容

32 篇文章 0 订阅

订阅专栏

一、贝叶斯估计的基本概念：

（1）在用于分类的贝叶斯决策中，最优的条件可以是最小错误率或最小风险。在这里，对连续变量 $\theta$ ，我们假定把它估计为 $\hat{\theta}$ 所带来的损失为 $\lambda(\theta,\hat{\theta})$ ，也成为损失函数。

（2）设样本的取值空间为 E^d ，参数的取值空间为 $\phi$ ，当用 $\hat{\theta}$ 来作为估计时总期望风险为：

$R=\int_{E^d}\int_{\phi}\lambda(\hat{\theta},\theta)p(x,\theta)d\theta dx\int_{E^d}\int_{\phi}\lambda(\hat{\theta},\theta)p(\theta|x)p(x)d\theta dx$

这里， $\lambda(\hat{\theta},\theta)$ 表示样本的损失， $p(x,\theta)$ 表示样本的分类概率。

（3）①我们定义在样本x下的条件风险（即样本取值固定时）为：

$R(\hat{\theta}|x)=\int_{\phi}\lambda(\hat{\theta},\theta)p(\theta|x)d\theta$

那么，R就可以写作：

$R=\int_{E^d}R(\hat{\theta}|x)p(x) dx$

② 求最小期望风险，就等于对所有可能的x求条件风险最小。在有限样本集合 X=(x_1,x_2,...x_N) 的情况下，我们所能做的就是所有的样本求条件风险最小，即：

${\theta}^\ast =argminR(\hat{\theta}|X)=\int_\phi\lambda(\hat{\theta},\theta)p(\theta|X)d\theta$

③ 在连续的情况下，当损失函数是平方误差损失函数，即：

$\lambda(\hat{\theta},\theta)=(\theta-\hat{\theta})^2$

此时，在样本x条件下 $\theta$ 的贝叶斯估计量 ${\theta}^\ast$ 是在给定x下 $\theta$ 的条件期望：

${\theta}^\ast=E(\theta|x)=\int_{\phi}\theta p({\theta}|x) d\theta$

由上所述，我们可知，在最小平方误差损失函数下，贝叶斯估计的步骤可以写作：

①根据对问题的认识或猜测来确定 $\theta$ 的先验分布密度 $p(\theta)$

②由于样本是独立同分布的，而且已知样本密度函数的形式 $p(x|\theta)$ ，可以形式上求出样本集X的联合分布为

$p(X|\theta)=\prod_{i=1}^{N}p(x_i|\theta)$

③ 利用贝叶斯公式求 $\theta$ 的后验概率分布：

$p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{\int_\theta p(X|\theta)\cdot p(\theta) d\theta}$

④ $\theta$ 的贝叶斯估计量是：

$\theta^\ast =\int_\theta \theta\cdot p(\theta|X) d\theta$

二、正态分布下的贝叶斯估计：

① 在一维正态分布模型中，假设模型的均值为待估计参数，方差 $\sigma^2$ 为已知。则我们可以把分布密度写作：

$p(x|u)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-u)^2}{2\sigma^2}}$

② 假设均值u的先验分布也是正态分布，其均值为 u_0 ，方差为 $\sigma^2_0$ 。即，

$p(u)=\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{(u-u_0)^2}{2\sigma_0^2}}$

③ 对均值u进行估计，我们可以得到（其中X表示有限样本集合）：

$p(u|X)=\frac{p(X|u)\cdot p(u)}{\int_u p(X|u)\cdot p(u) du}$

由于分母部分是用来对估计出的后验概率进行归一化的常数项，故先计算分子部分：

$p(X|u)p(u)=\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{(u-u_0)^2}{2\sigma_0^2}} \prod_{i=1}^{N}(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-u)^2}{2\sigma^2}})$

④ 将所有不依赖于u的量都写入一个常数中，可得：

$p(X|u)p(u)=\alpha e^{-\frac{(u-u_N)^2}{2\sigma_N^2}}$

进一步可得到 p(u|X) 也是一个正态分布，即有：

$p(u|X)=\frac{1}{\sqrt{2\pi}\sigma_N} e^{-\frac{(u-u_N)^2}{2\sigma_N^2}}$

这里，参数满足：

$\left\{\begin{matrix} \frac{1}{\sigma_N^2}=\frac{1}{\sigma_0^2}+\frac{N}{\sigma^2}\\ u_N=\sigma_N^2(\frac{u_0}{\sigma_0^2}+\frac{\sum_{i=1}^{N}x_i}{\sigma^2}) \end{matrix}\right.$