概率论之贝叶斯统计

在极大似然估计和矩估计中,我们都将待估参数 θ \theta θ视为参数空间 Θ \Theta Θ的一个未知常数(或常向量),我们坚信这些参数的信息只是由样本携带,于是通过对样本“毫无偏见”的加工,得到参数估计,而后按照判别好坏的标准对估计量进行分析,但事实上,参数 θ \theta θ本身就是一个随机变量。
既然我们将参数 θ ∈ Θ \theta\in\Theta θΘ视为一个取值于 Θ \Theta Θ的随机变量,如果是连续型随机变量,则便有一个随机密度,记为 h ( θ ) h(\theta) h(θ),称为参数 θ \theta θ先验分布
设样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn出自总体 X X X,并设 F ( x ; θ ) F(x;\theta) F(x;θ) X X X的分布函数,样本的联合分布 F ( x 1 , x 2 , . . . , x n ; θ ) = ∏ i = 1 n F ( x i ; θ ) F(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^nF(x_i;\theta) F(x1,x2,...,xn;θ)=i=1nF(xi;θ)
在贝叶斯估计中,已知 θ \theta θ的条件下,上述样本联合分布函数实际是条件分布,即它的相应形式为 F ( x 1 , x 2 , . . . , x n ∣ θ ) = ∏ i = 1 n F ( x i ; θ ) F(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta) F(x1,x2,...,xnθ)=i=1nF(xi;θ)
同理对于样本密度也是条件密度,可有类似的记法,即 f ( x 1 , x 2 , . . . , x n ∣ θ ) = ∏ i = 1 n F ( x i ; θ ) f(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta) f(x1,x2,...,xnθ)=i=1nF(xi;θ)
对于离散型的总体,其联合概率也是条件概率 P ( x 1 , x 2 , . . . , x n ∣ θ ) = ∏ i = 1 n F ( x i ; θ ) P(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta) P(x1,x2,...,xnθ)=i=1nF(xi;θ)

θ ^ 是 θ \hat\theta是\theta θ^θ的估计量,由于 θ ^ 与 θ \hat\theta与\theta θ^θ或多或少会有一些距离,我们可以定义一个非负的二元函数 L ( θ ^ , θ ) L(\hat\theta,\theta) L(θ^,θ),称为在用 θ ^ 估 计 θ \hat\theta估计\theta θ^θ时的损失函数。通常最常用的是所谓二次损失函数: L ( θ ^ , θ ) = ( θ ^ − θ ) 2 L(\hat\theta,\theta)=(\hat\theta-\theta)^2 L(θ^,θ)=(θ^θ)2
显然 L ( θ ^ , θ ) L(\hat\theta,\theta) L(θ^,θ)越小,表明我们的估计越好,但是这里 θ ^ 与 θ \hat\theta与\theta θ^θ都是随机变量,因此我们所希望的“小”,只能从概率的意义上来说,也就是“平均损失”要小。考虑样本和参数的联合分布 g ( x 1 , x 2 , . . . x n ; θ ) = g ( x 1 , x 2 , . . . , x n ∣ θ ) h ( θ ) g(x_1,x_2,...x_n;\theta)=g(x_1,x_2,...,x_n|\theta)h(\theta) g(x1,x2,...xn;θ)=g(x1,x2,...,xnθ)h(θ)
于是我们有贝叶斯估计的定义如下:

对于 θ \theta θ的一个估计 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat\theta=\hat\theta(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn),记 R ( θ ^ ) = ∫ ∫ R n × θ L ( θ , θ ^ ( x 1 , x 2 , . . . , x n ) ) ∙ g ( x 1 , x 2 , . . . , x n ∣ θ ) h ( θ ) d x 1 d x 2 ⋅ ⋅ ⋅ d x n d θ R(\hat\theta)=\int\int_{R^n\times\theta}L(\theta,\hat\theta(x_1,x_2,...,x_n))\bullet{g(x_1,x_2,...,x_n|\theta)h(\theta)}dx_1dx_2\cdot\cdot\cdot{dx_n}d\theta R(θ^)=Rn×θL(θ,θ^(x1,x2,...,xn))g(x1,x2,...,xnθ)h(θ)dx1dx2dxndθ,称 R ( θ ^ ) 是 估 计 量 θ ^ R(\hat\theta)是估计量\hat\theta R(θ^)θ^的贝叶斯风险,并称使得贝叶斯风险最小的估计 θ ^ 0 \hat\theta_0 θ^0 R ( θ ^ 0 ) = m i n R ( θ ^ ) R(\hat\theta_0)=minR(\hat\theta) R(θ^0)=minR(θ^) θ \theta θ的贝叶斯估计。

解法,简记 x = ( x 1 , x 2 , . . . , x n ) , d x = d x 1 d x 2 . . . d x n x=(x_1,x_2,...,x_n),dx=dx_1dx_2...dx_n x=(x1,x2,...,xn),dx=dx1dx2...dxn对风险两遍关于 θ ^ \hat\theta θ^求导得,有 ∂ R ( θ ^ ) ∂ θ ^ = 2 ∫ ∫ Θ ∩ X ( θ − θ ^ ( x ) ) g ( x ∣ θ ) h ( θ ) d x d θ \frac{\partial{R(\hat\theta)}}{\partial{\hat\theta}}=2\int\int_{\Theta\cap{X}}(\theta-\hat\theta(x))g(x|\theta)h(\theta)dxd\theta θ^R(θ^)=2ΘX(θθ^(x))g(xθ)h(θ)dxdθ
令右式等0,且积分可变换顺序,得 ∫ ∫ Θ ∩ X θ g ( x ∣ θ ) h ( θ ) d θ d x = ∫ ∫ Θ ∩ X θ ^ ( x ) g ( x ∣ θ ) h ( θ ) d θ d x = ∫ R n θ ^ ( x ) d x ∫ Θ g ( x , θ ) d θ \int\int_{\Theta\cap{X}}\theta{g(x|\theta)}h(\theta)d\theta{dx}=\int\int_{\Theta\cap{X}}\hat\theta(x)g(x|\theta)h(\theta)d\theta{dx}=\int_{R^n}\hat\theta(x)dx\int_{\Theta}g(x,\theta)d\theta ΘXθg(xθ)h(θ)dθdx=ΘXθ^(x)g(xθ)h(θ)dθdx=Rnθ^(x)dxΘg(x,θ)dθ
显然若令 θ ^ = ∫ Θ θ h ( θ ∣ x ) d θ \hat\theta=\int_{\Theta}\theta{h}(\theta|x)d\theta θ^=Θθh(θx)dθ,其中 h ( θ ∣ x ) = h ( θ ∣ x 1 , x 2 , . . . , x n ) = g ( x ∣ θ ) h ( θ ) ∫ Θ g ( x ∣ θ ) h ( θ ) d θ h(\theta|x)=h(\theta|x_1,x_2,...,x_n)=\frac{g(x|\theta)h(\theta)}{\int_{\Theta}g(x|\theta)h(\theta)d{\theta}} h(θx)=h(θx1,x2,...,xn)=Θg(xθ)h(θ)dθg(xθ)h(θ)
将上面结果带入到上上式子中,即知 θ ^ 0 \hat\theta_0 θ^0是它的解,亦即 θ ^ 0 是 θ \hat\theta_0是\theta θ^0θ贝叶斯估计。而 θ ^ o = ∫ Θ θ h ( θ ∣ x ) d θ \hat\theta_o=\int_{\Theta}\theta{h}(\theta|x)d\theta θ^o=Θθh(θx)dθ正是随机变量 θ \theta θ的条件期望,以此作为估计值就是贝叶斯估计的方法
于是我们知,在二次损失函数下, θ \theta θ的贝叶斯估计 θ ^ 0 \hat\theta_0 θ^0,即为 θ \theta θ的后验期望值,是在条件密度下求得的期望,即为条件期望 E ( θ ∣ X 1 , X 2 , . . . , X n ) E(\theta|X_1,X_2,...,X_n) E(θX1,X2,...,Xn),简记估计量 θ ^ 0 = E ( θ ∣ X ) 或 估 计 值 θ ^ 0 = E ( θ ∣ x ) \hat\theta_0=E(\theta|X)或估计值\hat\theta_0=E(\theta|x) θ^0=E(θX)θ^0=E(θx)。所以有

称 条 件 期 望 θ ^ = E ( θ ∣ X 1 , X 2 , . . . , X n ) 为 θ 的 ∗ ∗ 贝 叶 斯 估 计 量 ∗ ∗ 称条件期望\hat\theta=E(\theta|X_1,X_2,...,X_n)为\theta的**贝叶斯估计量** θ^=E(θX1,X2,...,Xn)θ

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值