贝叶斯风险

贝叶斯风险

今天介绍贝叶斯风险。最近读Lehmann的Theory of Point Estimation,读的举步维艰,很多地方还要查资料予以补充才能看懂。

Definition 1. 估计 θ ^ \hat{\theta} θ^风险(risk)定义为:
R ( θ , θ ^ ) = E θ [ L ( θ , θ ^ ) ] = ∫ x L ( θ , θ ^ ) f ( x ; θ ) d x R(\theta, \hat{\theta})=\mathbb{E}_\theta[L(\theta, \hat{\theta})]=\int_xL(\theta, \hat{\theta})f(x;\theta)dx R(θ,θ^)=Eθ[L(θ,θ^)]=xL(θ,θ^)f(x;θ)dx
L ( θ , θ ^ ) L(\theta, \hat{\theta}) L(θ,θ^)为代价函数,一般选用凸的损失函数,例如平方损失。其中 θ ^ \hat{\theta} θ^是估计器, f ( x ; θ ) f(x;\theta) f(x;θ)是概率密度函数。

当选用平方损失的时候,风险就是均方误差 M S E MSE MSE
R ( θ , θ ^ ) = E θ [ ( θ − θ ^ ) 2 ] R(\theta, \hat{\theta})=\mathbb{E}_\theta[(\theta-\hat{\theta})^2] R(θ,θ^)=Eθ[(θθ^)2]
此时, R ( θ , θ ^ ) R(\theta,\hat{\theta}) R(θ,θ^)是参数 θ \theta θ的函数。如果要以 M S E MSE MSE比为目标寻找一个估计,最直观的想法在 θ \theta θ的每一个点上都达到最小值,称为一致风险最优性准则,这必须在某些限制下进行,例如无偏性。

bayes risks是指如下风险:
∫ Θ R ( θ , θ ^ ) d Λ ( θ ) \int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta) ΘR(θ,θ^)dΛ(θ)
其中, Λ \Lambda Λ是参数的先验分布函数,满足 ∫ d Λ ( θ ) = 1 \int d\Lambda(\theta)=1 dΛ(θ)=1

我理解的贝叶斯风险,是在参数先验分布的平均意义上估计的均方误差。

Theorem 1. θ \theta θ的先验分布为 f ( θ ) f(\theta) f(θ);给定 Θ = θ \Theta = \theta Θ=θ X X X的分布是 P θ ( X ) P_\theta(X) Pθ(X),密度表示为 f ( x ∣ θ ) f(x|\theta) f(xθ)。若(1)存在一个风险有限的估计 δ 0 ( x ) \delta_0(x) δ0(x);(2)对(几乎)所有的 x x x,都存在 δ Λ ( x ) \delta_{\Lambda}(x) δΛ(x),使得
∫ θ L ( θ , θ ^ ) f ( θ ∣ x ) d θ \int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta θL(θ,θ^)f(θx)dθ
达到极小值,则 δ Λ ( x ) \delta_{\Lambda}(x) δΛ(x)是一个贝叶斯估计(使贝叶斯风险最小的估计)。

证明:
∫ Θ R ( θ , θ ^ ) d Λ ( θ ) = ∫ θ ∫ x L ( θ , δ ( x ) ) f ( x ∣ θ ) d x f ( θ ) d θ = ∫ x ∫ θ L ( θ , δ ( x ) ) f ( θ ∣ x ) d θ f ( x ) d x \begin{aligned} \int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta)&=\int_\theta\int_xL(\theta, \delta(x))f(x|\theta)dxf(\theta)d\theta\\ &=\int_x\int_\theta L(\theta, \delta(x))f(\theta|x)d\theta f(x)dx \end{aligned} ΘR(θ,θ^)dΛ(θ)=θxL(θ,δ(x))f(xθ)dxf(θ)dθ=xθL(θ,δ(x))f(θx)dθf(x)dx
如果能够使得对 ∀ x \forall x x ∫ θ L ( θ , θ ^ ) f ( θ ∣ x ) d θ \int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta θL(θ,θ^)f(θx)dθ都最小,则 E x [ ∫ θ L ( θ , θ ^ ) f ( θ ∣ x ) d θ ] \mathbb{E}_x[\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta] Ex[θL(θ,θ^)f(θx)dθ]也最小,从而贝叶斯风险最小。

这个定理导出了对任意给定 x x x,应该选择怎样的估计器。

Example 1. 当 L ( θ , δ ( x ) ) = ( θ − δ ( x ) ) 2 L(\theta,\delta(x))=(\theta-\delta(x))^2 L(θ,δ(x))=(θδ(x))2时, ∀ x \forall x x,最小化贝叶斯风险的贝叶斯估计器是
δ ( x ) = E [ θ ∣ x ] \delta(x)=E[\theta|x] δ(x)=E[θx]
这是后验分布均值。其实当我们用MAP(最大后验估计)时,用的是后验众数,而不是后验均值,因此MAP并不是贝叶斯估计,也就没有最优化贝叶斯风险。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值