18.第七章 Bayes方法和统计决策理论(2)

第七章 Bayes方法和统计决策理论(2)

1.Bayes点估计与区间估计

在点估计方面,有了后验分布以后,可以按照后验分布求未知参数 θ \theta θ的点估计。一般常用以下三种估计:

  • 后验众数估计:使后验密度 π ( θ ∣ x ) \pi(\theta|x) π(θx)达到最大时的 θ \theta θ值,也称为后验密度的众数,用后验密度的众数作为 θ \theta θ的估计称为后验众数估计,也称为广义极大似然估计,记作 θ ^ M D \hat \theta_{MD} θ^MD
  • 后验中位数估计:用后验分布的中位数作为 θ \theta θ估计,称为 θ \theta θ的后验中位数估计,记作 θ ^ M E \hat \theta_{ME} θ^ME.
  • 后验均值估计:用后验分布的期望作为 θ \theta θ的估计,称为后验期望估计(后验均值估计),记作 θ ^ E \hat \theta_E θ^E

在不引起混淆的情况下,上述三个估计都用 θ ^ B \hat \theta_B θ^B来记,表示Bayes估计。

衡量Bayes点估计的优劣使用后验均方误差PMSE,在样本观测值为 x x x的情况下设 θ \theta θ的Bayes估计为 δ ( x ) \delta(x) δ(x),则PMSE如下定义来度量估计量的精度:
PMSE ( δ ( x ) ) = E θ ∣ x [ ( θ − δ ( x ) ) 2 ] \text{PMSE}(\delta(x))=E^{\theta|x}[(\theta-\delta(x))^2] PMSE(δ(x))=Eθx[(θδ(x))2]
PMSE越小越好,特别当 δ ( x ) = E ( θ ∣ x ) \delta(x)=E(\theta|x) δ(x)=E(θx),即使用期望型Bayes估计时, δ ( x ) \delta(x) δ(x)的PMSE就是后验方差 D ( θ ∣ x ) D(\theta|x) D(θx)。可以证明,当后验均值为 μ π ( x ) \mu^\pi(x) μπ(x),后验方差为 V π ( x ) V^\pi(x) Vπ(x)时:
PMSE ( δ ( x ) ) = E θ ∣ x [ ( θ − δ ( x ) ) 2 ] = E θ ∣ x [ ( ( θ − μ π ( x ) ) + ( μ π ( x ) − δ ( x ) ) ) 2 ] = V π ( x ) + ( μ π ( x ) − δ ( x ) ) 2 ≥ V π ( x ) \begin{aligned} \text{PMSE}(\delta(x))=&E^{\theta|x}[(\theta-\delta(x))^2]\\ =&E^{\theta|x}[((\theta-\mu^\pi(x))+(\mu^\pi(x)-\delta(x)))^2]\\ =&V^\pi(x)+(\mu^\pi(x)-\delta(x))^2\\ \ge&V^\pi(x) \end{aligned} PMSE(δ(x))===Eθx[(θδ(x))2]Eθx[((θμπ(x))+(μπ(x)δ(x)))2]Vπ(x)+(μπ(x)δ(x))2Vπ(x)
所以后验期望估计是使得PMSE最小的Bayes估计,即PMSE准则下的最优估计,所以一般使用后验期望估计作为未知参数的Bayes点估计。

对于区间估计,当获得后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)后,如果存在区间 [ a , b ] [a,b] [a,b],使 θ \theta θ落在 [ a , b ] [a,b] [a,b]内的后验概率为 1 − α 1-\alpha 1α,即 P ( a ≤ θ ≤ b ∣ x ) ≥ 1 − α \mathbf P(a\le\theta\le b|x)\ge 1-\alpha P(aθbx)1α,则称 [ a , b ] [a,b] [a,b] θ \theta θ的Bayes区间估计,又叫可信区间。对于给定的样本 x x x 0 < α < 1 0<\alpha<1 0<α<1,如果存在两个统计量 θ ^ 1 , θ ^ 2 \hat \theta_1,\hat \theta_2 θ^1,θ^2使得
P ( θ ^ 1 ( x ) ≤ θ ≤ θ ^ 2 ( x ) ∣ x ) ≥ 1 − α \mathbf P(\hat \theta_1(x)\le \theta\le\hat \theta_2(x)|x)\ge1-\alpha P(θ^1(x)θθ^2(x)x)1α
就称 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1,\hat\theta_2] [θ^1,θ^2] θ \theta θ的可信水平为 1 − α 1-\alpha 1α的Bayes可信区间。同理可以定义Bayes可信限。

2.Bayes假设检验

对于检验问题 H 0 : θ ∈ Θ 0 ↔ θ ∈ Θ 1 H_0:\theta\in\Theta_0\leftrightarrow \theta\in\Theta_1 H0:θΘ0θΘ1,用Bayes方法得到 θ \theta θ的后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)后,只需要计算
α 0 = P ( θ ∈ Θ 0 ∣ x ) , α 1 = P ( θ ∈ Θ 1 ∣ x ) \alpha_0=\mathbf P(\theta \in\Theta_0|x),\quad \alpha_1=\mathbf P(\theta\in\Theta_1|x) α0=P(θΘ0x),α1=P(θΘ1x)
并比较 α 0 , α 1 \alpha_0,\alpha_1 α0,α1的大小,就决定接受 H 0 H_0 H0还是 H 1 H_1 H1,如果 α 0 / α 1 > 1 \alpha_0/\alpha_1>1 α0/α1>1则接受 H 0 H_0 H0,否则就拒绝 H 0 H_0 H0

3.Bayes统计决策

Bayes统计决策四要素:

  • 样本空间与样本分布族。即取值于样本空间 X \mathscr X X的随机变量及其分布族 { f ( x , θ ) , θ ∈ Θ } \{f(x,\theta),\theta\in\Theta\} {f(x,θ),θΘ}
  • 行动空间。是决策者或统计工作者对某个统计决策问题可能采取的行动所构成的非空集合 A \mathscr A A。在估计问题中 A \mathscr A A由一切估计量 δ ( x ) \delta(x) δ(x)构成,可以取 A = Θ \mathscr A=\Theta A=Θ;在检验问题中 A \mathscr A A由两个行动 { a 0 , a 1 } \{a_0,a_1\} {a0,a1}构成,分别代表接受和拒绝原假设。
  • 损失函数。是一个定义在 Θ × A \Theta\times \mathscr A Θ×A上的非负函数,记作 L ( a , θ ) L(a,\theta) L(a,θ),它表示参数为 θ \theta θ时采取行动 a ∈ A a\in\mathscr A aA所蒙受的损失。
  • 先验分布。这是Bayes统计决策的特有要素,定义在参数空间 Θ \Theta Θ上的先验分布函数 F π ( θ ) F^\pi(\theta) Fπ(θ)或概率函数 π ( θ ) \pi(\theta) π(θ)

Bayes统计决策就是研究如何根据样本 x x x的值,恰当选取行动 a a a使得按样本分布或后验分布计算的平均损失最小。在定义损失函数之前先定义平均损失,由于采取的行动 δ \delta δ是依赖于样本 X \boldsymbol X X的,因此损失函数 L ( δ , θ ) L(\delta,\theta) L(δ,θ)也和样本 X \boldsymbol X X有关,记平均损失为风险函数,即
R ( δ , θ ) = E [ L ( δ ( X ) , θ ) ] = ∫ X L ( δ ( x ) , θ ) f ( x , θ ) d x R(\delta,\theta)=E[L(\delta(\boldsymbol X),\theta)]=\int_\mathscr XL(\delta(\boldsymbol x),\theta)f(x,\theta)d\boldsymbol x R(δ,θ)=E[L(δ(X),θ)]=XL(δ(x),θ)f(x,θ)dx
当然我们希望风险函数越小越好,如果存在一个决策函数 δ ∗ \delta^* δ,使得对任何一个决策函数 δ \delta δ都有 R ( δ ∗ , θ ) ≤ R ( δ , θ ) , ∀ θ ∈ Θ R(\delta^*,\theta)\le R(\delta,\theta),\forall \theta\in\Theta R(δ,θ)R(δ,θ),θΘ,则称决策 δ ∗ \delta^* δ是一直最优决策函数。如果一直最优决策存在,那应当采用它,但除了某些特殊情形,一直最优解通常不存在,所以需要放宽标准。

现定义Bayes风险,设 R ( δ , θ ) R(\delta,\theta) R(δ,θ) δ \delta δ的风险函数, H ( θ ) H(\theta) H(θ)为先验分布,如果存在密度则记作 π ( θ ) \pi(\theta) π(θ),则称 δ \delta δ的Bayes风险为
R H ( δ ) = E θ [ R ( δ , θ ) ] = ∫ Θ R ( δ , θ ) d H ( θ ) = ∫ Θ R ( δ , θ ) π ( θ ) d θ R_H(\delta)=E^\theta[R(\delta,\theta)]=\int_\Theta R(\delta,\theta)dH(\theta)=\int_\Theta R(\delta,\theta)\pi(\theta) d\theta RH(δ)=Eθ[R(δ,θ)]=ΘR(δ,θ)dH(θ)=ΘR(δ,θ)π(θ)dθ
这是将风险函数按照先验分布 π ( θ ) / H ( θ ) \pi(\theta)/H(\theta) π(θ)/H(θ)加权得到的平均风险,使得Bayes风险达到最小的决策函数称为该决策问题的Bayes解,即如果存在 δ ∗ \delta^* δ使得对任一决策函数 δ \delta δ R H ( δ ∗ ) ≤ R H ( δ ) R_H(\delta^*)\le R_H(\delta) RH(δ)RH(δ),则称 δ ∗ \delta^* δ为所考虑的统计决策问题的Bayes解。

当获得样本后,相应地会有后验分布 π ( θ ∣ x ) / H ( θ ∣ x ) \pi(\theta|x)/H(\theta|x) π(θx)/H(θx),因此将损失函数按后验分布加权平均就得到后验风险,即
R ( δ ∣ x ) = E θ ∣ x [ L ( δ , θ ) ] = ∫ Θ L ( δ , θ ) d H ( θ ∣ x ) = ∫ Θ L ( δ , θ ) π ( θ ∣ x ) d θ R(\delta|x)=E^{\theta|x}[L(\delta,\theta)]=\int_\Theta L(\delta,\theta)dH(\theta|x)=\int_\Theta L(\delta,\theta)\pi(\theta|x)d\theta R(δx)=Eθx[L(δ,θ)]=ΘL(δ,θ)dH(θx)=ΘL(δ,θ)π(θx)dθ
如果存在决策函数 δ ∗ \delta^* δ使得对于任一决策函数 δ \delta δ,都有 R ( δ ∗ ∣ x ) ≤ R ( δ ∣ x ) R(\delta^*|x)\le R(\delta|x) R(δx)R(δx),则称 δ ∗ \delta^* δ是后验风险最小原则下的最优Bayes函数。可以证明,后验风险最小准则下的决策函数就是Bayes解。

接下来讨论损失函数,常见的损失函数有平方损失、加权平方损失、绝对值损失等。

平方损失是 L ( a , θ ) = ( a − θ ) 2 L(a,\theta)=(a-\theta)^2 L(a,θ)=(aθ)2,在平方损失下, θ \theta θ的Bayes估计是其后验期望。

加权平方损失是 L ( a , θ ) = w ( θ ) ( a − θ ) 2 L(a,\theta)=w(\theta)(a-\theta)^2 L(a,θ)=w(θ)(aθ)2,在加权平方损失下, θ \theta θ的Bayes估计为
θ ^ B = E ( θ w ( θ ) ∣ x ) E ( w ( θ ) ∣ x ) \hat \theta_B=\frac{E(\theta w(\theta)|x)}{E(w(\theta)|x)} θ^B=E(w(θ)x)E(θw(θ)x)
绝对值损失是 L ( a , θ ) = ∣ a − θ ∣ L(a,\theta)=|a-\theta| L(a,θ)=aθ,在绝对值损失下, θ \theta θ的Bayes估计为后验中位数。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值