概率论之贝叶斯统计

最新推荐文章于 2023-11-09 07:59:01 发布

大龄coder

最新推荐文章于 2023-11-09 07:59:01 发布

阅读量590

点赞数

分类专栏：机器学习读书笔记概率论文章标签：概率论机器学习贝叶斯估计

本文链接：https://blog.csdn.net/weixin_42341153/article/details/89007580

版权

机器学习同时被 3 个专栏收录

19 篇文章 0 订阅

订阅专栏

读书笔记

17 篇文章 0 订阅

订阅专栏

概率论

6 篇文章 0 订阅

订阅专栏

在极大似然估计和矩估计中，我们都将待估参数 $\theta$ 视为参数空间 $\Theta$ 的一个未知常数（或常向量），我们坚信这些参数的信息只是由样本携带，于是通过对样本“毫无偏见”的加工，得到参数估计，而后按照判别好坏的标准对估计量进行分析，但事实上，参数 $\theta$ 本身就是一个随机变量。
既然我们将参数 $\theta\in\Theta$ 视为一个取值于 $\Theta$ 的随机变量，如果是连续型随机变量，则便有一个随机密度，记为 $h(\theta)$ ，称为参数 $\theta$ 的先验分布。
设样本 $X_1,X_2,...,X_n$ 出自总体 $X$ ，并设 $F(x;\theta)$ 是 $X$ 的分布函数，样本的联合分布 $F(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^nF(x_i;\theta)$
在贝叶斯估计中，已知 $\theta$ 的条件下，上述样本联合分布函数实际是条件分布，即它的相应形式为 $F(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta)$
同理对于样本密度也是条件密度，可有类似的记法，即 $f(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta)$
对于离散型的总体，其联合概率也是条件概率 $P(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta)$

设 $\hat\theta是\theta$ 的估计量，由于 $\hat\theta与\theta$ 或多或少会有一些距离，我们可以定义一个非负的二元函数 $L(\hat\theta,\theta)$ ，称为在用 $\hat\theta估计\theta$ 时的损失函数。通常最常用的是所谓二次损失函数： $L(\hat\theta,\theta)=(\hat\theta-\theta)^2$
显然 $L(\hat\theta,\theta)$ 越小，表明我们的估计越好，但是这里 $\hat\theta与\theta$ 都是随机变量，因此我们所希望的“小”，只能从概率的意义上来说，也就是“平均损失”要小。考虑样本和参数的联合分布 $g(x_1,x_2,...x_n;\theta)=g(x_1,x_2,...,x_n|\theta)h(\theta)$
于是我们有贝叶斯估计的定义如下：

对于 $\theta$ 的一个估计 $\hat\theta=\hat\theta(X_1,X_2,...,X_n)$ ，记 $R(\hat\theta)=\int\int_{R^n\times\theta}L(\theta,\hat\theta(x_1,x_2,...,x_n))\bullet{g(x_1,x_2,...,x_n|\theta)h(\theta)}dx_1dx_2\cdot\cdot\cdot{dx_n}d\theta$ ，称 $R(\hat\theta)是估计量\hat\theta$ 的贝叶斯风险，并称使得贝叶斯风险最小的估计 $\hat\theta_0$ 即 $R(\hat\theta_0)=minR(\hat\theta)$ 为 $\theta$ 的贝叶斯估计。

解法，简记 $x=(x_1,x_2,...,x_n),dx=dx_1dx_2...dx_n$ 对风险两遍关于 $\hat\theta$ 求导得，有 $\frac{\partial{R(\hat\theta)}}{\partial{\hat\theta}}=2\int\int_{\Theta\cap{X}}(\theta-\hat\theta(x))g(x|\theta)h(\theta)dxd\theta$
令右式等0，且积分可变换顺序，得 $\int\int_{\Theta\cap{X}}\theta{g(x|\theta)}h(\theta)d\theta{dx}=\int\int_{\Theta\cap{X}}\hat\theta(x)g(x|\theta)h(\theta)d\theta{dx}=\int_{R^n}\hat\theta(x)dx\int_{\Theta}g(x,\theta)d\theta$
显然若令 $\hat\theta=\int_{\Theta}\theta{h}(\theta|x)d\theta$ ，其中 $h(\theta|x)=h(\theta|x_1,x_2,...,x_n)=\frac{g(x|\theta)h(\theta)}{\int_{\Theta}g(x|\theta)h(\theta)d{\theta}}$
将上面结果带入到上上式子中，即知 $\hat\theta_0$ 是它的解，亦即 $\hat\theta_0是\theta$ 的贝叶斯估计。而 $\hat\theta_o=\int_{\Theta}\theta{h}(\theta|x)d\theta$ 正是随机变量 $\theta$ 的条件期望，以此作为估计值就是贝叶斯估计的方法。
于是我们知，在二次损失函数下， $\theta$ 的贝叶斯估计 $\hat\theta_0$ ，即为 $\theta$ 的后验期望值，是在条件密度下求得的期望，即为条件期望 $E(\theta|X_1,X_2,...,X_n)$ ，简记估计量 $\hat\theta_0=E(\theta|X)或估计值\hat\theta_0=E(\theta|x)$ 。所以有

$称条件期望\hat\theta=E(\theta|X_1,X_2,...,X_n)为\theta的**贝叶斯估计量**$

大龄coder

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
概率论之贝叶斯统计

在极大似然估计和矩估计中，我们都将待估参数θ\thetaθ视为参数空间Θ\ThetaΘ的一个未知常数（或常向量），我们坚信这些参数的信息只是由样本携带，于是通过对样本“毫无偏见”的加工，得到参数估计，而后按照判别好坏的标准对估计量进行分析，但事实上，参数θ\thetaθ本身就是一个随机变量。既然我们将参数θ∈Θ\theta\in\Thetaθ∈Θ视为一个取值于Θ\ThetaΘ的随机变量，如果是连...
复制链接

扫一扫

专栏目录