一、贝叶斯参数估计
-
这里先回顾一下最大后验估计法:
- 最大后验估计法,通过最大化参数 θ θ θ的后验分布来求出估计参数 θ ^ \hat{θ} θ^ : θ ^ = a r g max θ P ( θ ∣ x ) = a r g max θ P ( x ∣ θ ) ∗ P ( θ ) \hat{θ}=arg\max_θP(θ|x)=arg\max_θP(x|θ)*P(θ) θ^=argθmaxP(θ∣x)=argθmaxP(x∣θ)∗P(θ)
- 现在我们分析分析后验分布 P ( θ ∣ x ) P(θ|x) P(θ∣x): P ( θ ∣ x ) = P ( x ∣ θ ) ∗ P ( θ ) P ( x ) P(θ|x)=\frac{P(x|θ)*P(θ)}{P(x)} P(θ∣x)=P(x)P(x∣θ)∗P(θ) P ( x ) P(x) P(x)为常数,对优化问题不影响,所以可以记作: P ( θ ∣ x ) = P ( x ∣ θ ) ∗ P ( θ ) P(θ|x)=P(x|θ)*P(θ) P(θ∣x)=P(x∣θ)∗P(θ)
- P ( x ∣ θ ) P(x|θ) P(x∣θ)为样本的概率分布, P ( θ ) P(θ) P(θ)为参数 θ θ θ的先验分布。我们将样本 x x x带入后: P ( θ ∣ x ) P(θ|x) P(θ∣x)就是一个 θ θ θ的概率分布,即 θ θ θ后验分布。既然它是一个概率分布,我们可以简单的把它理解为一个概率密度函数 f ( θ ) f(θ) f(θ),即 f ( θ ) = P ( θ ∣ x ) f(θ)=P(θ|x) f(θ)=P(θ∣x),最大后验估计法就是用该函数 ( f ( θ ) ) (f(θ)) (f(θ))的最大值点作为我们估计的参数: θ ^ \hat{θ} θ^
-
贝叶斯参数估计法是最大后验估计法的加强版:
- 先引入损失函数: L ( θ , a ) L(θ,a) L(θ,a),这个地方对于损失函数中变量的含义,很多博客和资料说法都不一致,这里只是根据个人理解给出中间两个变量的含义:
- θ θ θ:是后验分布的随机变量, θ θ θ的分布函数为: f ( θ ) = P ( θ ∣ x ) f(θ)=P(θ|x) f(θ)=P(θ∣x)
- a a a:也是一个随机变量,也可以理解为一个普通自变量,最后用 a a a来估计贝叶斯参数估计法得出的 θ ^ \hat{θ} θ^。
- 参数的后分布 P ( θ ∣ x ) P(θ|x) P(θ∣x)还有一个含义:原本参数 θ θ θ是服从先验分布 P ( θ ) P(θ) P(θ)的,当我们获得样本数据 x x x后,将样本数据的以下统计信息加入到 θ θ θ分布中后, θ θ θ变成服从后验验分布 P ( θ ∣ x ) P(θ|x) P(θ∣x)的随机变量了。
- 现在假设我们有了样本数据 X X X,和损失函数 L ( θ , a ) L(θ,a) L(θ,a)。
- 首先我们将样本信息加入到 θ θ θ分布中,得到 θ θ θ当前服从的后验分布 P ( θ │ x ) P(θ│x) P(θ│x)。
- 得到了参数 θ θ θ当前的概率分布 P ( θ │ x ) P(θ│x) P(θ│x)后,我们就可以计算损失函数 L ( θ , a ) L(θ,a) L(θ,a)相对参数 θ θ θ的数学期望了: E θ ( L ( θ , a ) ) = ∫ L ( θ , a ) P ( θ │ x ) d θ E_θ (L(θ,a))=∫L(θ,a)P(θ│x)dθ Eθ(L(θ,a))=∫L(θ,a)P(θ│x)dθ这是一个a的函数叫做:贝叶斯风险
- 最后贝叶斯参数估计法通过最小化贝叶斯风险得到最后的参数估计值 θ ^ \hat{θ} θ^,即: θ ^ = a r g min a E θ ( L ( θ , a ) ) \hat{θ}=arg\min_aE_θ (L(θ,a)) θ^=argaminEθ(L(θ,a))
- 先引入损失函数: L ( θ , a ) L(θ,a) L(θ,a),这个地方对于损失函数中变量的含义,很多博客和资料说法都不一致,这里只是根据个人理解给出中间两个变量的含义:
-
贝叶斯参数估计法步骤:
- 第一步:计算后验分布 P ( θ │ x ) P(θ│x) P(θ│x): P ( θ │ x ) = P ( x │ θ ) ∗ P ( θ ) P ( x ) P(θ│x)=\frac{P(x│θ)*P(θ)}{P(x)} P(θ│x)=P(x)P(x│θ)∗P(θ)
- 第二步:计算贝叶斯风险: E θ ( L ( θ , a ) ) = ∫ L ( θ , a ) P ( θ ∣ x ) d θ E_θ (L(θ,a))=∫L(θ,a) P(θ|x)dθ Eθ(L(θ,a))=∫L(θ,a)P(θ∣x)dθ