概率与统计——正态分布的共轭分布

概率与统计之正态分布的共轭分布 \color{green}\Large\textbf{概率与统计之正态分布的共轭分布} 概率与统计之正态分布的共轭分布

a. 前言

我们知道贝塔分布是二项分布的共轭先验分布,伽马分布是泊松分布的共轭先验分布,也就是说二项分布的单次试验的成功概率 p p p服从贝塔分布,泊松分布单位时间内的成功速率 λ \lambda λ服从伽马分布。同样对于正态分布也存在共轭先验分布,而由于正态分布中的参数有 μ 与 σ 2 \mu与\sigma^2 μσ2两种,所以根据两种参数的已知与未知又存在三种共轭先验分布。为了能够加深对于共轭先验分布的认知以及进一步理解利用贝叶斯法则推导的逻辑,在此将网上的相关论文内容进行整理

b. 通用参数符号以及一些基本知识说明

  • 样本向量 : X = ( x 1 , x 2 , ⋯   , x n ) , n 为样本向量大小 \textcolor{blue}{\textbf{样本向量}}:X=(x_1,x_2,\cdots,x_n),n为样本向量大小 样本向量X=(x1,x2,,xn)n为样本向量大小
  • 正态总体分布的参数 :期望 μ ,方差 φ = σ 2 \textcolor{blue}{\textbf{正态总体分布的参数}}:期望\mu,方差\varphi=\sigma^2 正态总体分布的参数:期望μ,方差φ=σ2
  • 条件总体分布函数 : N ( X ∣ μ ) 或 N ( X ∣ φ ) 或 N ( X ∣ μ , φ ) \textcolor{blue}{\textbf{条件总体分布函数}}:N(X|\mu)或N(X|\varphi)或N(X|\mu,\varphi) 条件总体分布函数N(Xμ)N(Xφ)N(Xμ,φ)
  • 似然函数 :当样本向量以及其他参数给定时,条件总体分布其实是相当于未知参数的分布,条件总体分布函数 也可以看做是未知参数的函数,称之为似然函数。表达式为 P ( μ ∣ X , φ ) 或 P ( φ ∣ X , μ ) 或 P ( μ , φ ∣ X ) \textcolor{blue}{\textbf{似然函数}}:当样本向量以及其他参数给定时,条件总体分布其实是相当于未知参数的分布,条件总体分布函数\\也可以看做是未知参数的函数,称之为似然函数。表达式为\Rho(\mu|X,\varphi)或\Rho(\varphi|X,\mu)或\Rho(\mu,\varphi|X) 似然函数:当样本向量以及其他参数给定时,条件总体分布其实是相当于未知参数的分布,条件总体分布函数也可以看做是未知参数的函数,称之为似然函数。表达式为P(μX,φ)P(φX,μ)P(μ,φX)
  • 参数先验分布密度函数 : ξ ( μ ) 或 ξ ( φ ) 或 ξ ( μ , φ ) \textcolor{blue}{\textbf{参数先验分布密度函数}}:\xi(\mu)或\xi(\varphi)或\xi(\mu,\varphi) 参数先验分布密度函数ξ(μ)ξ(φ)ξ(μ,φ)
  • 参数后验分布密度函数 : ω ( μ ∣ X ) 或 ω ( φ ∣ X ) 或 ω ( μ , φ ∣ X ) \textcolor{blue}{\textbf{参数后验分布密度函数}}:\omega(\mu|X)或\omega(\varphi|X)或\omega(\mu,\varphi|X) 参数后验分布密度函数ω(μX)ω(φX)ω(μ,φX)
  • 核 : 概率密度函数中略去归一化常数因子部分,剩余的与自变量有关的部分就称为核。比如正态分布 N ( μ , φ ) 在 已知 μ 与 φ 的条件下,核为 e − ( x − μ ) 2 2 φ , 通过核的形式就可知道分布的类型,而利用归一化的结论便可重新求出 常数因子。核是推导共轭分布的关键 \textcolor{blue}{\textbf{核}}:\textbf{概率密度函数中略去归一化常数因子部分,剩余的与自变量有关的部分就称为核。比如正态分布}N(\mu,\varphi)在\\已知\mu与\varphi的条件下,核为 e^{\frac{-(x-\mu)^2}{2\varphi}},\textbf{通过核的形式就可知道分布的类型,而利用归一化的结论便可重新求出}\\\textbf{常数因子。核是推导共轭分布的关键} 概率密度函数中略去归一化常数因子部分,剩余的与自变量有关的部分就称为核。比如正态分布N(μ,φ)已知μφ的条件下,核为e2φ(xμ)2通过核的形式就可知道分布的类型,而利用归一化的结论便可重新求出常数因子。核是推导共轭分布的关键
  • 以期望 μ 的后验分布密度函数为例 , ω ( μ ∣ X ) = N ( X ∣ μ ) ξ ( μ ) ∫ μ N ( X ∣ μ ) ξ ( μ ) d μ = P ( μ ∣ X , φ ) ξ ( μ ) ∫ μ P ( μ ∣ X , φ ) ξ ( μ ) d μ 如果 N ( X ∣ μ ) ξ ( μ ) 可以表示为一个 c 1 ⋅ c 2 ⋅ g ( μ ) 的形式,其中 c 1 为任意常数, c 2 ⋅ g ( μ ) 为一种已知的分布的 概率密度函数, c 2 为归一化常数因子, g ( μ ) 为核。那么 ω ( μ ∣ X ) = c 2 g ( μ ) ,也就是说后验分布为核 g ( μ ) 对应的 分布 . 因为 ω ( μ ∣ X ) = N ( X ∣ μ ) ξ ( μ ) ∫ μ N ( X ∣ μ ) ξ ( μ ) d μ = c 1 ⋅ c 2 ⋅ g ( μ ) c 1 ∫ μ c 2 ⋅ g ( μ ) d μ = c 1 ⋅ c 2 ⋅ g ( μ ) c 1 ⋅ 1 = c 2 ⋅ g ( μ ) 换句话说在该情形下如果 ω ( μ ∣ X ) ∝ g ( μ ) ,那么 ω ( μ ∣ X ) = c 2 ⋅ g ( μ ) 是必然的 。总结一下就是 ω ( μ ∣ X ) ∝ N ( X ∣ μ ) ξ ( μ ) = P ( μ ∣ X , φ ) ξ ( μ ) ∝ g ( μ ) ( 1 ) \textcolor{blue}{\textbf{以期望}}\mu\textcolor{blue}{\textbf{的后验分布密度函数为例}}, \displaystyle \omega(\mu|X)=\frac{N(X|\mu)\xi(\mu)}{\int_\mu N(X|\mu)\xi(\mu)d\mu}=\frac{\Rho(\mu|X,\varphi)\xi(\mu)}{\int_\mu \Rho(\mu|X,\varphi)\xi(\mu)d\mu}\\ 如果N(X|\mu)\xi(\mu)可以表示为一个c_1\cdot c_2\cdot g(\mu)的形式,其中c_1为任意常数,c_2\cdot g(\mu)为一种已知的分布的\\概率密度函数,c_2为归一化常数因子,g(\mu)为核。那么\omega(\mu|X)=c_2g(\mu),也就是说后验分布为核g(\mu)对应的\\分布.因为\displaystyle \omega(\mu|X)=\frac{N(X|\mu)\xi(\mu)}{\int_\mu N(X|\mu)\xi(\mu)d\mu}=\frac{c_1\cdot c_2\cdot g(\mu)}{c_1\int_\mu c_2\cdot g(\mu)d\mu}=\frac{c_1\cdot c_2\cdot g(\mu)}{c_1\cdot 1}=c_2\cdot g(\mu)\\ \textcolor{blue}{换句话说在该情形下如果\omega(\mu|X)\varpropto g(\mu),那么\omega(\mu|X) = c_2\cdot g(\mu)是必然的}。 总结一下就是\\ \qquad\qquad\qquad\qquad\qquad\qquad\qquad \displaystyle \omega(\mu|X)\varpropto N(X|\mu)\xi(\mu)=\Rho(\mu|X,\varphi)\xi(\mu)\varpropto g(\mu)\qquad\qquad\qquad\qquad\quad(1) 以期望μ的后验分布密度函数为例ω(μX)=μN(Xμ)ξ(μ)dμN(Xμ)ξ(μ)=μP(μX,φ)ξ(μ)dμP(μX,φ)ξ(μ)如果N(Xμ)ξ(μ)可以表示为一个c1c2g(μ)的形式,其中c1为任意常数,c2g(μ)为一种已知的分布的概率密度函数,c2为归一化常数因子,g(μ)为核。那么ω(μX)=c2g(μ),也就是说后验分布为核g(μ)对应的分布.因为ω(μX)=μN(Xμ)ξ(μ)dμN(Xμ)ξ(μ)=c1μc2g(μ)dμc1c2g(μ)=c11c1c2g(μ)=c2g(μ)换句话说在该情形下如果ω(μX)g(μ),那么ω(μX)=c2g(μ)是必然的。总结一下就是ω(μX)N(Xμ)ξ(μ)=P(μX,φ)ξ(μ)g(μ)(1)

一,期望 μ \mu μ未知,方差 φ \varphi φ已知的情形

1. 参数符号

  • θ 0 , ϕ 0 \theta_0,\phi_0 θ0,ϕ0,先验正态分布的期望与方差
  • θ 1 , ϕ 1 \theta_1,\phi_1 θ1,ϕ1,后验正态分布的期望与方差
  • x − \overset{-}{x} x,本次收集到的数据的样本均值

2. 目标

  • 推导出正态总体分布 N ( μ , φ ) ( φ 已知 ) N(\mu,\varphi)(\varphi已知) N(μ,φ)(φ已知)的先验共轭分布
  • 根据当前已收集的样本更新后验期望值 μ \mu μ

3. 推导先验共轭分布

  1. 似然函数 : \textcolor{blue}{\textbf{似然函数}}: 似然函数:在给定 φ \varphi φ以及样本数据条件下的似然函数为
    P ( μ ∣ X , φ ) = N ( X ∣ μ ) = ∏ i = 1 n { 1 2 π φ e − ( x i − μ ) 2 2 φ }    = ( 2 π φ ) − n / 2 ⋅ e x p ( − ∑ i = 1 n ( x i − μ ) 2 / 2 φ )    ∝ e x p ( − ∑ i = 1 n ( x i − μ ) 2 / 2 φ ) \displaystyle \Rho(\mu|X,\varphi)=N(X|\mu)=\prod_{i=1}^n \{\displaystyle \frac{1}{\sqrt{2\pi\varphi}}e^{\displaystyle-\frac{(x_i-\mu)^2}{2\varphi}}\}\\ \qquad\qquad\qquad\qquad\quad\ \ = (2\pi\varphi)^{-n/2}\cdot exp( -\sum_{i=1}^n(x_i-\mu)^2/2\varphi)\\ \qquad\qquad\qquad\qquad\quad\ \ \propto exp(-\sum_{i=1}^n(x_i-\mu)^2/2\varphi) P(μX,φ)=N(Xμ)=i=1n{2πφ 1e2φ(xiμ)2}  =(2πφ)n/2exp(i=1n(xiμ)2/2φ)  exp(i=1n(xiμ)2/2φ)
  2. μ 的先验分布 : 设 μ 的先验分布为一个正态分布 N ( θ 0 , ϕ 0 ) ,则 ξ ( μ ) = ( 2 π ϕ 0 ) − 1 / 2 ⋅ e x p ( − ( μ − θ 0 ) 2 / 2 ϕ 0 ) \textcolor{blue}{\mu\textbf{的先验分布}}:设\mu的先验分布为一个正态分布N(\theta_0,\phi_0),则\xi(\mu)=(2\pi\phi_0)^{-1/2}\cdot exp(-(\mu-\theta_0)^2/2\phi_0) μ的先验分布:μ的先验分布为一个正态分布N(θ0,ϕ0),则ξ(μ)=(2πϕ0)1/2exp((μθ0)2/2ϕ0)
  3. μ 的后验分布 : 在推出似然函数与先验分布后,根据式 ( 1 ) 便可进行后验分布的推导 \textcolor{blue}{\mu\textbf{的后验分布}}:在推出似然函数与先验分布后,根据式(1)便可进行后验分布的推导 μ的后验分布:在推出似然函数与先验分布后,根据式(1)便可进行后验分布的推导
    ω ( μ ∣ X ) ∝ P ( μ ∣ X , φ ) ξ ( μ ) ∝ e x p ( − ∑ i = 1 n ( x i − μ ) 2 / 2 φ ) ⋅ e x p ( − ( μ − θ 0 ) 2 / 2 ϕ 0 ) ∝ e x p { − 1 2 [ ( 1 ϕ 0 + n φ ) μ 2 − 2 ( θ 0 ϕ 0 + n x − φ ) μ + θ 0 2 ϕ 0 + ∑ i = 1 n x i 2 φ ] } , ( x − = 1 n ∑ i = 1 n x i 即样本均值 ) θ 0 2 ϕ 0 + ∑ i = 1 n x i 2 φ 是与 μ 无关的常数可以省略 , 于是上式可化为 ∝ e x p { − 1 2 [ ( 1 ϕ 0 + n φ ) μ 2 − 2 ( θ 0 ϕ 0 + n x − φ ) μ ] } 令 ϕ 1 = ( 1 ϕ 0 + n φ ) − 1 和 θ 1 = ϕ 1 ( θ 0 ϕ 0 + n x − φ ) 于是上式可化为 = e x p { − ( μ 2 − 2 θ 1 μ ) / 2 ϕ 1 } = e x p { − ( μ 2 − θ 1 ) 2 / 2 ϕ 1 − θ 1 2 / 2 ϕ 1 } θ 1 2 / 2 ϕ 1 同样是与 μ 无关的常数可以省略 , 于是上式可化为 ∝ e x p { − ( μ 2 − θ 1 ) 2 / 2 ϕ 1 } 此式正是正态分布 N ( θ 1 , ϕ 1 ) 的核,于是可知 μ 的后验分布是正态分布 N ( θ 1 , ϕ 1 ) \begin{aligned} \omega(\mu|X)&\propto \Rho(\mu|X,\varphi)\xi(\mu)\\ &\propto exp(-\sum_{i=1}^n(x_i-\mu)^2/2\varphi) \cdot exp(-(\mu-\theta_0)^2/2\phi_0)\\ &\propto exp\{-\frac{1}{2}[(\frac{1}{\phi_0}+\frac{n}{\varphi})\mu^2-2(\frac{\theta_0}{\phi_0}+\frac{n\overset{-}{x}}{\varphi})\mu+\frac{\theta_0^2}{\phi_0}+\frac{\sum_{i=1}^nx_i^2}{\varphi}]\},(\overset{-}{x}=\frac{1}{n}\sum_{i=1}^nx_i即样本均值)\\ &\textcolor{red}{\frac{\theta_0^2}{\phi_0}+\frac{\sum_{i=1}^nx_i^2}{\varphi}是与\mu无关的常数可以省略,于是上式可化为}\\ &\propto exp\{-\frac{1}{2}[(\frac{1}{\phi_0}+\frac{n}{\varphi})\mu^2-2(\frac{\theta_0}{\phi_0}+\frac{n\overset{-}{x}}{\varphi})\mu]\}\\ &\textcolor{red}{令\phi_1=(\frac{1}{\phi_0}+\frac{n}{\varphi})^{-1}和\theta_1=\phi_1(\frac{\theta_0}{\phi_0}+\frac{n\overset{-}{x}}{\varphi})于是上式可化为}\\ &= exp\{-(\mu^2-2\theta_1\mu)/2\phi_1\}=exp\{-(\mu^2-\theta_1)^2/2\phi_1-\theta_1^2/2\phi_1\}\\ &\textcolor{red}{\theta_1^2/2\phi_1同样是与\mu无关的常数可以省略,于是上式可化为}\\ &\propto exp\{-(\mu^2-\theta_1)^2/2\phi_1\}\\ &\textcolor{red}{此式正是正态分布N(\theta_1,\phi_1)的核,于是可知\mu的后验分布是正态分布N(\theta_1,\phi_1)} \end{aligned} ω(μX)P(μX,φ)ξ(μ)exp(i=1n(xiμ)2/2φ)exp((μθ0)2/2ϕ0)exp{21[(ϕ01+φn)μ22(ϕ0θ0+φnx)μ+ϕ0θ02+φi=1nxi2]}(x=n1i=1nxi即样本均值)ϕ0θ02+φi=1nxi2是与μ无关的常数可以省略,于是上式可化为exp{21[(ϕ01+φn)μ22(ϕ0θ0+φnx)μ]}ϕ1=(ϕ01+φn)1θ1=ϕ1(ϕ0θ0+φnx)于是上式可化为=exp{(μ22θ1μ)/2ϕ1}=exp{(μ2θ1)2/2ϕ1θ12/2ϕ1}θ12/2ϕ1同样是与μ无关的常数可以省略,于是上式可化为exp{(μ2θ1)2/2ϕ1}此式正是正态分布N(θ1,ϕ1)的核,于是可知μ的后验分布是正态分布N(θ1,ϕ1)
  4. 结论 :由于先验分布 N ( θ 0 , ϕ 0 ) 推出的后验分布同为正态分布 N ( θ 1 , ϕ 1 ) ,故先验分布 N ( θ 0 , ϕ 0 ) 是正态总体分布 N ( μ , φ ) ( φ 已知 ) 的共轭分布。同时可以用后验分布的期望值来估计 μ ,也就是说 E ( μ ∣ X ) = θ 1 \textcolor{blue}{\textbf{结论}}:由于先验分布N(\theta_0,\phi_0)推出的后验分布同为正态分布N(\theta_1,\phi_1),故先验分布N(\theta_0,\phi_0)是正态总体分布\\N(\mu,\varphi)(\varphi已知)的共轭分布。同时可以用后验分布的期望值来估计\mu,也就是说E(\mu|X)=\theta_1 结论:由于先验分布N(θ0,ϕ0)推出的后验分布同为正态分布N(θ1,ϕ1),故先验分布N(θ0,ϕ0)是正态总体分布N(μ,φ)(φ已知)的共轭分布。同时可以用后验分布的期望值来估计μ,也就是说E(μX)=θ1

4. 后验期望值 μ \mu μ的估计

1). 总体步骤

  1. 通过以往收集的数据估算出前验正态分布 N ( θ 0 , ϕ 0 ) 的参数 θ 0 , 和 ϕ 0 通过以往收集的数据估算出前验正态分布N(\theta_0,\phi_0)的参数\theta_0,和\phi_0 通过以往收集的数据估算出前验正态分布N(θ0,ϕ0)的参数θ0,ϕ0
  2. 通过本次所得样本向量 X 求出样本均值 x − = 1 n ∑ i = 1 n x i 通过本次所得样本向量X求出样本均值\overset{-}{x}=\displaystyle \frac{1}{n}\sum_{i=1}^nx_i 通过本次所得样本向量X求出样本均值x=n1i=1nxi
  3. 利用已知的总体分布方差 φ ,样本均值 x − ,以及样本个数 n 来更新后验参数 θ 1 和 ϕ 1 ϕ 1 = ( 1 ϕ 0 + n φ ) − 1 , θ 1 = ϕ 1 ( θ 0 ϕ 0 + n x − φ ) 利用已知的总体分布方差\varphi,样本均值\overset{-}{x},以及样本个数n来更新后验参数\theta_1和\phi_1\\ \phi_1=(\displaystyle \frac{1}{\phi_0}+\frac{n}{\varphi})^{-1},\theta_1=\phi_1(\frac{\theta_0}{\phi_0}+\frac{n\overset{-}{x}}{\varphi}) 利用已知的总体分布方差φ,样本均值x,以及样本个数n来更新后验参数θ1ϕ1ϕ1=(ϕ01+φn)1θ1=ϕ1(ϕ0θ0+φnx)
  4. μ 的后验估计即为 θ 1 ,与此同时也可以根据后验参数求出后验分布的置信区间 \mu的后验估计即为\theta_1,与此同时也可以根据后验参数求出后验分布的置信区间 μ的后验估计即为θ1,与此同时也可以根据后验参数求出后验分布的置信区间

2). 例子

已知总体分布为 N ( μ , 10 ) ( φ = 10 ) ,样本向量 X 的大小为 20 ,且 x − = 22.222 ,并假定根据以往积累的数据经验得 P ( 20 < μ < 26 ) = 0.95 ,则对 μ 的推断如下 已知总体分布为N(\mu,10)(\varphi=10),样本向量X的大小为20,且\overset{-}{x}=22.222,并假定根据以往积累的数据经验得\\P(20<\mu<26)=0.95,则对\mu的推断如下 已知总体分布为N(μ,10)(φ=10),样本向量X的大小为20,且x=22.222,并假定根据以往积累的数据经验得P(20<μ<26)=0.95,则对μ的推断如下

  1. 首先是对于前验分布参数的计算,由于 μ ∼ N ( θ 0 , ϕ 0 ) ,于是标准化后 μ − θ 0 ϕ 0 ∼ N ( 0 , 1 ) ,所以对于标准正态分布 而言 P ( − 2 < μ − θ 0 ϕ 0 < 2 ) = 0.95 ,对比原前验分布的 P ( 20 < μ < 26 ) = 0.95 于是可得 { θ 0 − 2 ϕ 0 = 20 θ 0 + 2 ϕ 0 = 26    ⟹    { θ 0 = 23 ϕ 0 = 2.25    ⟹    前验分布为 N ( 23 , 2.25 ) 首先是对于前验分布参数的计算,由于\mu\thicksim N(\theta_0,\phi_0),于是标准化后\displaystyle \frac{\mu-\theta_0}{\sqrt{\phi_0}}\thicksim N(0,1),所以对于标准正态分布\\ 而言P(-2<\frac{\mu-\theta_0}{\sqrt{\phi_0}}<2)=0.95,对比原前验分布的P(20<\mu<26)=0.95于是可得\\ \begin{cases} \theta_0-2\sqrt{\phi_0}&=20\\\theta_0+2\sqrt{\phi_0}&=26\end{cases}\implies\begin{cases}\theta_0=23\\\phi_0=2.25\end{cases}\implies 前验分布为N(23,2.25) 首先是对于前验分布参数的计算,由于μN(θ0,ϕ0),于是标准化后ϕ0 μθ0N(0,1),所以对于标准正态分布而言P(2<ϕ0 μθ0<2)=0.95,对比原前验分布的P(20<μ<26)=0.95于是可得{θ02ϕ0 θ0+2ϕ0 =20=26{θ0=23ϕ0=2.25前验分布为N(23,2.25)
  2. 更新后验分布参数。 { ϕ 1 = ( 1 ϕ 0 + n φ ) − 1 = ( 1 2.25 + 20 10 ) − 1 ≈ 0.409 θ 1 = ϕ 1 ( θ 0 ϕ 0 + n x − φ ) = 0.409 × ( 23 2.25 + 20 × 22.222 10 ) ≈ 22.36 ⇒ 可以推出 μ 的后验分布 μ ∣ X ∼ N ( 22.36 , 0.409 ) 更新后验分布参数。\\ \begin{cases} \phi_1&=(\displaystyle \frac{1}{\phi_0}+\frac{n}{\varphi})^{-1}=(\displaystyle \frac{1}{2.25}+\frac{20}{10})^{-1}\approx0.409\\ \theta_1&=\phi_1(\displaystyle \frac{\theta_0}{\phi_0}+\frac{n\overset{-}{x}}{\varphi})=0.409\times(\frac{23}{2.25}+\frac{20\times22.222}{10})\approx22.36 \end{cases}\xRightarrow{可以推出\mu的后验分布}\mu|X\thicksim N(22.36,0.409) 更新后验分布参数。 ϕ1θ1=(ϕ01+φn)1=(2.251+1020)10.409=ϕ1(ϕ0θ0+φnx)=0.409×(2.2523+1020×22.222)22.36可以推出μ的后验分布 μXN(22.36,0.409)
  3. 由后验分布 N ( 22.36 , 0.409 ) 可得 μ 的后验估计为 E ( μ ∣ X ) = 22.36 ,同时可得后验分布中 μ 的 95 % 概率的置信 区间为 22.36 − 2 0.409 < μ < 22.36 + 2 0.409    ⟹    21.08 < μ < 23.64 由后验分布N(22.36,0.409)可得\mu的后验估计为E(\mu|X)=22.36,同时可得后验分布中\mu的95\%概率的置信\\区间为 22.36-2\sqrt{0.409}<\mu<22.36+2\sqrt{0.409}\implies 21.08<\mu<23.64 由后验分布N(22.36,0.409)可得μ的后验估计为E(μX)=22.36,同时可得后验分布中μ95%概率的置信区间为22.3620.409 <μ<22.36+20.409 21.08<μ<23.64

5. 利用马尔科夫链蒙特卡罗方法的模拟

写不开了这是链接.

二,期望 μ \mu μ已知,方差 φ \varphi φ未知的情形

1. 参数符号

  • t 0 t_0 t0,先验逆卡方分布的自由度
  • t 1 t_1 t1,后验逆卡方分布的自由度
  • S 0 S_0 S0,本次数据更新前,所预估的数据与期望 μ \mu μ的差的平方和
  • S S S, 本次收集到的数据与期望 μ \mu μ的差的平方和
  • S 1 S_1 S1,将本次本次收集到的数据收录到总体数据集后,总体数据与期望 μ \mu μ的差的平方和

2. 目标

  • 推导出正态总体分布 N ( μ , φ ) ( μ 已知 ) N(\mu,\varphi)(\mu已知) N(μ,φ)(μ已知)的先验共轭分布
  • 根据当前已收集的样本更新后验方差 φ \varphi φ

3. 推导先验共轭分布

  1. 似然函数 : \textcolor{blue}{\textbf{似然函数}}: 似然函数:在给定 μ \mu μ以及样本数据条件下的似然函数为
    P ( φ ∣ X , μ ) = N ( X ∣ μ ) = ∏ i = 1 n { 1 2 π φ e − x i − μ 2 φ }    = ( 2 π φ ) − n / 2 ⋅ e x p ( − ∑ i = 1 n ( x i − μ ) 2 / 2 φ )    ∝ φ − n / 2 e x p ( − ∑ i = 1 n ( x i − μ ) 2 / 2 φ )    令 S = ∑ i = 1 n ( x i − μ ) 2 于是上式变为    = φ − n / 2 e x p ( − S / 2 φ ) \displaystyle \Rho(\varphi|X,\mu)=N(X|\mu)=\prod_{i=1}^n \{\displaystyle \frac{1}{\sqrt{2\pi\varphi}}e^{\displaystyle-\frac{x_i-\mu}{2\varphi}}\}\\ \qquad\qquad\qquad\qquad\quad\ \ = (2\pi\varphi)^{-n/2}\cdot exp( -\sum_{i=1}^n(x_i-\mu)^2/2\varphi)\\ \qquad\qquad\qquad\qquad\quad\ \ \propto \varphi^{-n/2} exp(-\sum_{i=1}^n(x_i-\mu)^2/2\varphi)\\ \qquad\qquad\qquad\qquad\quad\ \ \textcolor{red}{令S=\sum_{i=1}^n(x_i-\mu)^2于是上式变为}\\ \qquad\qquad\qquad\qquad\quad\ \ = \varphi^{-n/2} exp(-S/2\varphi) P(φX,μ)=N(Xμ)=i=1n{2πφ 1e2φxiμ}  =(2πφ)n/2exp(i=1n(xiμ)2/2φ)  φn/2exp(i=1n(xiμ)2/2φ)  S=i=1n(xiμ)2于是上式变为  =φn/2exp(S/2φ)
  2. φ 的先验分布 : 关于 φ 的先验分布,先设一自由度为 t 0 的逆卡方分布变量 η ∼ χ − 2 ( t 0 ) ,概率密度函数为 f ( η ) \textcolor{blue}{\varphi\textbf{的先验分布}}: \\关于\varphi的先验分布,先设一自由度为t_0的逆卡方分布变量\eta\thicksim \chi^{-2}(t_0),概率密度函数为f(\eta) φ的先验分布:关于φ的先验分布,先设一自由度为t0的逆卡方分布变量ηχ2(t0),概率密度函数为f(η)
    逆卡方分布的介绍链接.目录为6-2
    又设一常数 S 0 = ∑ i = 1 n ( x 0 i − μ ) 2 ,记为本次数据更新前所有累积数据与期望 μ 差的平方和。随后令 φ = S 0 η 也就是说 φ ∼ S 0 χ − 2 ( t 0 ) 是一个逆卡方分布。于是 又设一常数S_0=\displaystyle \sum_{i=1}^n(x_{0_i}-\mu)^2,记为本次数据更新前所有累积数据与期望\mu差的平方和。随后令\\\varphi=S_0\eta也就是说\varphi\thicksim S_0\chi^{-2}(t_0)是一个逆卡方分布。于是 又设一常数S0=i=1n(x0iμ)2,记为本次数据更新前所有累积数据与期望μ差的平方和。随后令φ=S0η也就是说φS0χ2(t0)是一个逆卡方分布。于是
    ξ ( φ ) = f ( φ S 0 ) ⋅ 1 S 0 = S 0 t 0 / 2 2 t 0 / 2 Γ ( t 0 / 2 ) φ − t 0 / 2 − 1 e x p { − S 0 / 2 φ } 0 < φ < ∞ \xi(\varphi)=f(\frac{\varphi}{S_0})\cdot\frac{1}{S_0}= \frac{S_0^{t_0/2}}{2^{t_0/2}\Gamma(t_0/2)}\varphi^{-t_0/2-1}exp\{-S_0/2\varphi\}\quad0<\varphi<\infty ξ(φ)=f(S0φ)S01=2t0/2Γ(t0/2)S0t0/2φt0/21exp{S0/2φ}0<φ<
    同时可以求出该先验分布的期望和方差为 E ( φ ) = S 0 t 0 − 2 , V a r ( φ ) = 2 S 0 2 ( t 0 − 2 ) 2 ( t 0 − 4 ) 同时可以求出该先验分布的期望和方差为\displaystyle E(\varphi)=\frac{S_0}{t_0-2},Var(\varphi)=\frac{2S_0^2}{(t_0-2)^2(t_0-4)} 同时可以求出该先验分布的期望和方差为E(φ)=t02S0Var(φ)=(t02)2(t04)2S02
  3. φ 的后验分布 : 在推出似然函数与先验分布后,根据式 ( 1 ) 便可进行后验分布的推导 \textcolor{blue}{\varphi\textbf{的后验分布}}:在推出似然函数与先验分布后,根据式(1)便可进行后验分布的推导 φ的后验分布:在推出似然函数与先验分布后,根据式(1)便可进行后验分布的推导
    ω ( φ ∣ X ) ∝ P ( φ ∣ X , μ ) ξ ( φ ) ∝ S 0 t 0 / 2 2 t 0 / 2 Γ ( t 0 / 2 ) φ − t 0 / 2 − 1 e x p { − S 0 / 2 φ } ⋅ φ − n / 2 e x p ( − S / 2 φ ) ∝ S 0 t 0 / 2 2 t 0 / 2 Γ ( t 0 / 2 ) φ − ( t 0 + n ) / 2 − 1 e x p { − ( S 0 + S ) / 2 φ } S 0 t 0 / 2 2 t 0 / 2 Γ ( t 0 / 2 ) 是与 φ 无关的常数,省略后上式变为 ∝ φ − ( t 0 + n ) / 2 − 1 e x p { − ( S 0 + S ) / 2 φ } 令 t 1 = t 0 + n , S 1 = S 0 + S ,上式可以变为 = φ − t 1 / 2 − 1 e x p { − S 1 / 2 φ } 显然这是分布 S 1 χ − 2 ( t 1 ) 的核,可见 φ 的后验分布是 S 1 χ − 2 ( t 1 ) \begin{aligned} \omega(\varphi|X)&\propto \Rho(\varphi|X,\mu)\xi(\varphi)\\ &\propto \frac{S_0^{t_0/2}}{2^{t_0/2}\Gamma(t_0/2)}\varphi^{-t_0/2-1}exp\{-S_0/2\varphi\}\cdot\varphi^{-n/2} exp(-S/2\varphi)\\ &\propto \frac{S_0^{t_0/2}}{2^{t_0/2}\Gamma(t_0/2)}\varphi^{-(t_0+n)/2-1}exp\{-(S_0+S)/2\varphi\}\\ &\textcolor{red}{ \frac{S_0^{t_0/2}}{2^{t_0/2}\Gamma(t_0/2)}是与\varphi无关的常数,省略后上式变为}\\ &\propto \varphi^{-(t_0+n)/2-1}exp\{-(S_0+S)/2\varphi\}\\ &\textcolor{red}{令t_1=t_0+n,S_1=S_0+S,上式可以变为}\\ &= \varphi^{-t_1/2-1}exp\{-S_1/2\varphi\}\\ &\textcolor{red}{显然这是分布S_1\chi^{-2}(t_1)的核,可见\varphi的后验分布是S_1\chi^{-2}(t_1)} \end{aligned} ω(φX)P(φX,μ)ξ(φ)2t0/2Γ(t0/2)S0t0/2φt0/21exp{S0/2φ}φn/2exp(S/2φ)2t0/2Γ(t0/2)S0t0/2φ(t0+n)/21exp{(S0+S)/2φ}2t0/2Γ(t0/2)S0t0/2是与φ无关的常数,省略后上式变为φ(t0+n)/21exp{(S0+S)/2φ}t1=t0+n,S1=S0+S,上式可以变为=φt1/21exp{S1/2φ}显然这是分布S1χ2(t1)的核,可见φ的后验分布是S1χ2(t1)
  4. 结论 : 由 φ 的先验分布 S 0 χ − 2 ( t 0 ) 推出的后验分布为 S 1 χ − 2 ( t 1 ) ,故先验分布 S 0 χ − 2 ( t 0 ) 是正态分布 N ( μ , φ ) ( μ 已知 ) 的 共轭分布。同时可以用后验分布的期望来估计 φ ,即 E ( φ ∣ X ) = S 1 t 1 − 2 。 \textcolor{blue}{\textbf{结论}:}由\varphi的先验分布S_0\chi^{-2}(t_0)推出的后验分布为S_1\chi^{-2}(t_1),故先验分布S_0\chi^{-2}(t_0)是正态分布N(\mu,\varphi)(\mu已知)的\\ 共轭分布。同时可以用后验分布的期望来估计\varphi,即E(\varphi|X)=\displaystyle \frac{S_1}{t_1-2}。 结论:φ的先验分布S0χ2(t0)推出的后验分布为S1χ2(t1),故先验分布S0χ2(t0)是正态分布N(μ,φ)(μ已知)共轭分布。同时可以用后验分布的期望来估计φ,即E(φX)=t12S1

4. 后验期望值 φ \varphi φ的估计

1). 总体步骤

  1. 通过以往经验估算出前验逆卡方分布 S 0 χ − 2 ( t 0 ) 的参数 S 0 , 和 t 0 通过以往经验估算出前验逆卡方分布S_0\chi^{-2}(t_0)的参数S_0,和t_0 通过以往经验估算出前验逆卡方分布S0χ2(t0)的参数S0,t0
  2. 通过本次所得样本向量 X 求出样本数据与期望 μ 差的平方和 S = ∑ i = 1 n ( x i − μ ) 2 通过本次所得样本向量X求出样本数据与期望\mu差的平方和S=\displaystyle \sum_{i=1}^n(x_i-\mu)^2 通过本次所得样本向量X求出样本数据与期望μ差的平方和S=i=1n(xiμ)2
  3. 更新后验参数 S 1 = S 0 + S , t 1 = t 0 + n , n 为样本数 更新后验参数S_1=S_0+S,t_1=t_0+n,n为样本数 更新后验参数S1=S0+St1=t0+nn为样本数
  4. φ 的后验估计即为 S 1 t 1 − 2 ,与此同时也可以根据后验参数求出后验分布的置信区间 \varphi的后验估计即为\displaystyle \frac{S_1}{t_1-2},与此同时也可以根据后验参数求出后验分布的置信区间 φ的后验估计即为t12S1,与此同时也可以根据后验参数求出后验分布的置信区间

2). 例子

已知总体分布为 N ( 150 , φ ) ( μ = 150 ) ,样本向量 X 的大小为 20 ,并且由样本数据计算得 S = ∑ i = 1 20 ( x i − 150 ) 2 = 724 ,又由以往积累的数据经验得 φ 的先验期望为 45 ,先验标准差为 19 。于是对 φ 的推断如下 已知总体分布为N(150,\varphi)(\mu=150),样本向量X的大小为20,并且由样本数据计算得\\ S=\displaystyle \sum_{i=1}^{20}(x_i-150)^2=724,又由以往积累的数据经验得\varphi的先验期望为45,先验标准差为19。于是对\varphi的推断如下 已知总体分布为N(150,φ)(μ=150),样本向量X的大小为20,并且由样本数据计算得S=i=120(xi150)2=724,又由以往积累的数据经验得φ的先验期望为45,先验标准差为19。于是对φ的推断如下

  1. 由 φ 的先验分布为 S 0 χ − 2 ( t 0 ) 以及先验期望 45 以及先验标准差 19 可得 { E ( φ ) = S 0 t 0 − 2 = 45 V a r ( φ ) = 2 S 0 2 ( t 0 − 2 ) 2 ( t 0 − 4 ) = 361 ⇒ 解方程组 { t 0 ≈ 15 ( 自由度取整数 ) S 0 = 585 由\varphi的先验分布为S_0\chi^{-2}(t_0)以及先验期望45以及先验标准差19可得\\ \begin{cases} E(\varphi)&=\displaystyle \frac{S_0}{t_0-2}&=45\\ Var(\varphi)&=\displaystyle \frac{2S_0^2}{(t_0-2)^2(t_0-4)}&=361 \end{cases} \xRightarrow{解方程组} \begin{cases} t_0&\approx15(自由度取整数)\\ S_0&=585 \end{cases} φ的先验分布为S0χ2(t0)以及先验期望45以及先验标准差19可得 E(φ)Var(φ)=t02S0=(t02)2(t04)2S02=45=361解方程组 {t0S015(自由度取整数)=585
  2. 更新后验分布参数 { t 1 = t 0 + n = 15 + 20 = 35 S 1 = S 0 + S = 585 + 724 = 1309 ⇒ 推出后验分布 φ ∣ X ∼ 1309 χ − 2 ( 35 ) 更新后验分布参数\\ \begin{cases} t_1=t_0+n=15+20&=35\\ S_1=S_0+S=585+724&=1309 \end{cases} \xRightarrow{推出后验分布} \varphi|X\thicksim 1309\chi^{-2}(35) 更新后验分布参数{t1=t0+n=15+20S1=S0+S=585+724=35=1309推出后验分布 φX1309χ2(35)
  3. 由后验分布 1309 χ − 2 ( 35 ) 得出 φ 的估计值为 E ( φ ∣ X ) = S 1 t 1 − 2 ≈ 39.67 。另外由于自由度为 35 的逆卡方分布 的 95 % 的置信区间为 0.017 ∼ 0.046 也就是 0.017 < φ S 1 < 0.046 ⇒ 于是可得 22 < φ < 60 由后验分布1309\chi^{-2}(35)得出\varphi的估计值为E(\varphi|X)=\displaystyle \frac{S_1}{t_1-2}\approx39.67。另外由于自由度为35的逆卡方分布\\ 的95\%的置信区间为0.017\thicksim 0.046也就是0.017<\frac{\varphi}{S_1}<0.046\xRightarrow{于是可得} 22<\varphi<60 由后验分布1309χ2(35)得出φ的估计值为E(φX)=t12S139.67。另外由于自由度为35的逆卡方分布95%的置信区间为0.0170.046也就是0.017<S1φ<0.046于是可得 22<φ<60

5. 利用马尔科夫链蒙特卡罗方法的模拟

写不开了这是链接.

三,期望 μ \mu μ,方差 φ \varphi φ均未知的情形

1. 目标

  • 推导出正态总体分布 N ( μ , φ ) N(\mu,\varphi) N(μ,φ)(全部参数未知)的先验共轭分布
  • 推导出每个参数的边缘分布
  • 根据当前已收集的样本更新后验期望和方差

2. 推导先验共轭分布

似然函数 : 在期望与方差均未知的条件下,两者的联合分布密度函数如下 \textcolor{blue}{\textbf{似然函数}}:在期望与方差均未知的条件下,两者的联合分布密度函数如下 似然函数:在期望与方差均未知的条件下,两者的联合分布密度函数如下
P ( μ , φ ∣ X ) = N ( X ∣ μ , φ ) = ∏ i = 1 n { 1 2 π φ e − x i − μ 2 φ }    = ( 2 π φ ) − n / 2 ⋅ e x p ( − ∑ i = 1 n ( x i − μ ) 2 / 2 φ )    ∝ φ − n / 2 e x p ( − ∑ i = 1 n ( x i − x − + x − − μ ) 2 / 2 φ )    = φ − n / 2 e x p ( − [ ∑ i = 1 n ( x i − x − ) 2 + n ( μ − x − ) 2 ] / 2 φ )    = φ − n / 2 e x p ( − [ S + n ( μ − x − ) 2 ] / 2 φ ) 其中 x − = 1 n ∑ i = 1 n x i 为样本均值, S = ∑ i = 1 n ( x i − x − ) 2 是样本数据与样本均值差的平方和 \displaystyle \Rho(\mu,\varphi|X)=N(X|\mu,\varphi)=\prod_{i=1}^n \{\displaystyle \frac{1}{\sqrt{2\pi\varphi}}e^{\displaystyle-\frac{x_i-\mu}{2\varphi}}\}\\ \qquad\qquad\qquad\qquad\quad\ \ = (2\pi\varphi)^{-n/2}\cdot exp( -\sum_{i=1}^n(x_i-\mu)^2/2\varphi)\\ \qquad\qquad\qquad\qquad\quad\ \ \propto \varphi^{-n/2} exp(-\sum_{i=1}^n(x_i-\overset{-}{x}+\overset{-}{x}-\mu)^2/2\varphi)\\ \qquad\qquad\qquad\qquad\quad\ \ = \varphi^{-n/2} exp(-[\sum_{i=1}^n(x_i-\overset{-}{x})^2+n(\mu - \overset{-}{x})^2]/2\varphi)\\ \qquad\qquad\qquad\qquad\quad\ \ =\varphi^{-n/2} exp(-[S+n(\mu - \overset{-}{x})^2]/2\varphi)\\ \textcolor{red}{其中\overset{-}{x}=\frac{1}{n}\sum_{i=1}^nx_i为样本均值,S=\sum_{i=1}^n(x_i-\overset{-}{x})^2是样本数据与样本均值差的平方和} P(μ,φX)=N(Xμ,φ)=i=1n{2πφ 1e2φxiμ}  =(2πφ)n/2exp(i=1n(xiμ)2/2φ)  φn/2exp(i=1n(xix+xμ)2/2φ)  =φn/2exp([i=1n(xix)2+n(μx)2]/2φ)  =φn/2exp([S+n(μx)2]/2φ)其中x=n1i=1nxi为样本均值,S=i=1n(xix)2是样本数据与样本均值差的平方和
先验分布 : 根据之前两种情形下的所推导出的先验共轭分布的经验,令 φ ∼ S 0 χ − 2 ( t 0 ) ,而 μ ∣ φ ∼ N ( θ 0 , φ / n 0 ) , 与此同时令 μ 与 φ 的联合分布为先验分布 \textcolor{blue}{\textbf{先验分布}}:根据之前两种情形下的所推导出的先验共轭分布的经验,令\varphi\thicksim S_0\chi^{-2}(t_0),而\mu|\varphi\thicksim N(\theta_0,\varphi/n_0),\\ 与此同时令\mu与\varphi的联合分布为先验分布 先验分布:根据之前两种情形下的所推导出的先验共轭分布的经验,令φS0χ2(t0),而μφN(θ0,φ/n0)与此同时令μφ的联合分布为先验分布
ξ ( μ , φ ) = S 0 t 0 / 2 2 t 0 / 2 Γ ( t 0 / 2 ) φ − t 0 / 2 − 1 e x p { − S 0 / 2 φ } ⋅ n 0 1 / 2 ( 2 π φ ) 1 / 2 e x p { − n 0 ( μ − θ 0 ) 2 / 2 φ } = S 0 t 0 / 2 n 0 1 / 2 π 1 / 2 2 ( t 0 + 1 ) / 2 Γ ( t 0 / 2 ) ⋅ φ − ( t 0 + 1 ) / 2 − 1 e x p { − [ S 0 + n 0 ( μ − θ 0 ) 2 ] / 2 φ } S 0 t 0 / 2 n 0 1 / 2 π 1 / 2 2 ( t 0 + 1 ) / 2 Γ ( t 0 / 2 ) 是与 μ , φ 无关的常数,省略后上式变为 ∝ φ − ( t 0 + 1 ) / 2 − 1 e x p { − [ S 0 + n 0 ( μ − θ 0 ) 2 ] / 2 φ } \begin{aligned} \xi(\mu,\varphi)&=\frac{S_0^{t_0/2}}{2^{t_0/2}\Gamma(t_0/2)}\varphi^{-t_0/2-1}exp\{-S_0/2\varphi\}\cdot \frac{n_0^{1/2}}{(2\pi\varphi)^{1/2}}exp\{-n_0(\mu-\theta_0)^2/2\varphi\}\\ &=\frac{S_0^{t_0/2}n_0^{1/2}}{\pi^{1/2}2^{(t_0+1)/2}\Gamma(t_0/2)}\cdot \varphi^{-(t_0+1)/2-1}exp\{-[S_0+n_0(\mu-\theta_0)^2]/2\varphi\}\\ &\textcolor{red}{\frac{S_0^{t_0/2}n_0^{1/2}}{\pi^{1/2}2^{(t_0+1)/2}\Gamma(t_0/2)}是与\mu,\varphi无关的常数,省略后上式变为}\\ &\propto \varphi^{-(t_0+1)/2-1}exp\{-[S_0+n_0(\mu-\theta_0)^2]/2\varphi\}\\ \end{aligned} ξ(μ,φ)=2t0/2Γ(t0/2)S0t0/2φt0/21exp{S0/2φ}(2πφ)1/2n01/2exp{n0(μθ0)2/2φ}=π1/22(t0+1)/2Γ(t0/2)S0t0/2n01/2φ(t0+1)/21exp{[S0+n0(μθ0)2]/2φ}π1/22(t0+1)/2Γ(t0/2)S0t0/2n01/2是与μ,φ无关的常数,省略后上式变为φ(t0+1)/21exp{[S0+n0(μθ0)2]/2φ}
通过观察该联合分布的核,称其为正态 ∼ 逆卡方分布 通过观察该联合分布的核,称其为正态\thicksim 逆卡方分布 通过观察该联合分布的核,称其为正态逆卡方分布

后验分布 : 在推出似然函数与先验分布后,根据式 ( 1 ) 便可进行后验分布的推导 \textcolor{blue}{\textbf{后验分布}}:在推出似然函数与先验分布后,根据式(1)便可进行后验分布的推导 后验分布:在推出似然函数与先验分布后,根据式(1)便可进行后验分布的推导
ω ( μ , φ ∣ X ) ∝ P ( μ , φ ∣ X ) ξ ( μ , φ ) ∝ φ − n / 2 e x p ( − [ S + n ( μ − x − ) 2 ] / 2 φ ) ⋅ φ − ( t 0 + 1 ) / 2 − 1 e x p { − [ S 0 + n 0 ( μ − θ 0 ) 2 ] / 2 φ } = φ − ( t 0 + n + 1 ) / 2 − 1 e x p { − [ S + S 0 + n 0 ( μ − θ 0 ) 2 + n ( μ − x − ) 2 ] / 2 φ } ( 2 ) = φ − ( t 1 + 1 ) / 2 − 1 e x p { − [ S 1 + n 1 ( μ − θ 1 ) 2 ] / 2 φ }   ( 3 ) \begin{aligned} \omega(\mu,\varphi|X)&\propto \Rho(\mu,\varphi|X)\xi(\mu,\varphi)\\ &\propto \varphi^{-n/2} exp(-[S+n(\mu - \overset{-}{x})^2]/2\varphi)\cdot \varphi^{-(t_0+1)/2-1}exp\{-[S_0+n_0(\mu-\theta_0)^2]/2\varphi\}\\ &= \varphi^{-(t_0+n+1)/2-1}exp\{-[S+S_0+n_0(\mu-\theta_0)^2+n(\mu - \overset{-}{x})^2]/2\varphi\}\qquad\qquad\qquad(2)\\ &= \varphi^{-(t_1+1)/2-1}exp\{-[S_1+n_1(\mu-\theta_1)^2]/2\varphi\}\qquad\qquad\qquad\qquad\qquad\qquad\qquad\ (3) \end{aligned} ω(μ,φX)P(μ,φX)ξ(μ,φ)φn/2exp([S+n(μx)2]/2φ)φ(t0+1)/21exp{[S0+n0(μθ0)2]/2φ}=φ(t0+n+1)/21exp{[S+S0+n0(μθ0)2+n(μx)2]/2φ}(2)=φ(t1+1)/21exp{[S1+n1(μθ1)2]/2φ} (3)
关于 ( 2 ) 式变换的说明如下,令 t 1 = t 0 + n , n 1 = n 0 + n , θ 1 = n 0 θ 0 + n x − n 1 以及 S 1 = S 0 + S + n 0 n ( θ 0 − x − ) 2 n 1 也就是说 S 1 + n 1 ( μ − θ 1 ) 2 = S 0 + S + n 0 n ( θ 0 − x − ) 2 n 1 + ( n 1 μ − n 0 θ 0 − n x − ) 2 n 1 = S 0 + S + n 0 ( μ − θ 0 ) 2 + n ( μ − x − ) 2 这一步虽然看上去比较繁琐,但因为所有的变换步骤中都没有涉及到未知参数 μ 和 φ ,仅用到了以往的累积数据 和当前获得的样本数据而完成的,所以变换是可行的。通过对后验分布密度函数核的观察不难发现其仍然是一个 正态 ∼ 逆卡方分布 关于(2)式变换的说明如下,令t_1=t_0+n,n_1=n_0+n,\theta_1=\displaystyle \frac{n_0\theta_0+n\overset{-}{x}}{n_1}以及S_1=S_0+S+\frac{n_0n(\theta_0-\overset{-}{x})^2}{n_1}\\ 也就是说S_1+n_1(\mu-\theta_1)^2=S_0+S+\frac{n_0n(\theta_0-\overset{-}{x})^2}{n_1}+\frac{(n_1\mu-n_0\theta_0-n\overset{-}{x})^2}{n_1}=S_0+S+n_0(\mu-\theta_0)^2+n(\mu - \overset{-}{x})^2\\ 这一步虽然看上去比较繁琐,但因为所有的变换步骤中都没有涉及到未知参数\mu和\varphi,仅用到了以往的累积数据\\ 和当前获得的样本数据而完成的,所以变换是可行的。通过对后验分布密度函数核的观察不难发现其仍然是一个\\ 正态\thicksim 逆卡方分布 关于(2)式变换的说明如下,令t1=t0+nn1=n0+nθ1=n1n0θ0+nx以及S1=S0+S+n1n0n(θ0x)2也就是说S1+n1(μθ1)2=S0+S+n1n0n(θ0x)2+n1(n1μn0θ0nx)2=S0+S+n0(μθ0)2+n(μx)2这一步虽然看上去比较繁琐,但因为所有的变换步骤中都没有涉及到未知参数μφ,仅用到了以往的累积数据和当前获得的样本数据而完成的,所以变换是可行的。通过对后验分布密度函数核的观察不难发现其仍然是一个正态逆卡方分布

结论 : 由于通过先验正态 ∼ 逆卡方分布推出的后验分布仍然是一个正态 ∼ 逆卡方分布,所以可知 正态 ∼ 逆卡方分布是正态总体分布 ( μ , φ 均未知 ) 的共轭分布 \textcolor{blue}{\textbf{结论}}:由于通过先验正态\thicksim 逆卡方分布推出的后验分布仍然是一个正态\thicksim 逆卡方分布,所以可知\\正态\thicksim 逆卡方分布是正态总体分布(\mu,\varphi均未知)的共轭分布 结论:由于通过先验正态逆卡方分布推出的后验分布仍然是一个正态逆卡方分布,所以可知正态逆卡方分布是正态总体分布(μ,φ均未知)的共轭分布

3. 推导 μ , φ \mu,\varphi μφ的后验边缘分布

虽然已经推导出正态总体分布 ( μ , φ 均未知 ) 的共轭先验分布以及后验分布,但由于后验分布为二元联合分布,所以 如果想要根据样本向量更新 μ 与 φ 的估计还需要求得在后验分布中两参数各自的边缘分布 虽然已经推导出正态总体分布(\mu,\varphi均未知)的共轭先验分布以及后验分布,但由于后验分布为二元联合分布,所以\\ 如果想要根据样本向量更新\mu与\varphi的估计还需要求得在后验分布中两参数各自的边缘分布 虽然已经推导出正态总体分布(μ,φ均未知)的共轭先验分布以及后验分布,但由于后验分布为二元联合分布,所以如果想要根据样本向量更新μφ的估计还需要求得在后验分布中两参数各自的边缘分布

1). φ \varphi φ的后验边缘分布

通过对比前验分布和后验分布的核以及前验分布的定义易知 φ 的后验边缘分布为 S 1 χ − 2 ( t 1 ) ,当然通过对 μ 求积分 也很容易得出这个结论 通过对比前验分布和后验分布的核以及前验分布的定义易知\varphi 的后验边缘分布为S_1\chi^{-2}(t_1),当然通过对\mu求积分\\也很容易得出这个结论 通过对比前验分布和后验分布的核以及前验分布的定义易知φ的后验边缘分布为S1χ2(t1),当然通过对μ求积分也很容易得出这个结论

2). μ \mu μ的后验边缘分布

同理于前验分布,后验分布中对于式子 ( 3 ) 所省略的归一化常数因子为 S 1 t 1 / 2 n 1 1 / 2 π 1 / 2 2 ( t 1 + 1 ) / 2 Γ ( t 1 / 2 ) = A 1 ,同时又令 A 2 = S 1 + n 1 ( μ − θ 1 ) 2 ,那么整个后验分布的联合函数可以写为 同理于前验分布,后验分布中对于式子(3)所省略的归一化常数因子为\displaystyle \frac{S_1^{t_1/2}n_1^{1/2}}{\pi^{1/2}2^{(t_1+1)/2}\Gamma(t_1/2)}=A_1,同时又令\\ A_2=S_1+n_1(\mu-\theta_1)^2,那么整个后验分布的联合函数可以写为 同理于前验分布,后验分布中对于式子(3)所省略的归一化常数因子为π1/22(t1+1)/2Γ(t1/2)S1t1/2n11/2=A1,同时又令A2=S1+n1(μθ1)2,那么整个后验分布的联合函数可以写为
ω ( μ , φ ∣ X ) = A 1 φ − ( t 1 + 1 ) / 2 − 1 e x p ( − A 2 / 2 φ ) \omega(\mu,\varphi|X)=A_1\varphi^{-(t_1+1)/2-1}exp(-A_2/2\varphi) ω(μ,φX)=A1φ(t1+1)/21exp(A2/2φ)
求 φ 的积分便可得 μ 的后验边缘分布函数 求\varphi的积分便可得\mu的后验边缘分布函数 φ的积分便可得μ的后验边缘分布函数
f μ ( μ ∣ X ) = ∫ 0 ∞ A 1 φ − ( t 1 + 1 ) / 2 − 1 e x p ( − A 2 / 2 φ ) d φ f_{\mu}(\mu|X)=\int_0^\infty A_1\varphi^{-(t_1+1)/2-1}exp(-A_2/2\varphi) d\varphi fμ(μX)=0A1φ(t1+1)/21exp(A2/2φ)dφ
再设 z = A 2 − 1 φ 对积分进行换元可得 再设z=A_2^{-1}\varphi 对积分进行换元可得 再设z=A21φ对积分进行换元可得
f z ( z ∣ X ) = A 1 A 2 − ( t 1 + 1 ) / 2 ∫ 0 ∞ z − ( t 1 + 1 ) / 2 − 1 e − 1 2 z d z = 2 ( t 1 + 1 / ) 2 Γ ( t 1 + 1 2 ) A 1 A 2 − ( t 1 + 1 ) / 2 ⋅ ∫ 0 ∞ 1 2 ( t 1 + 1 / ) 2 Γ ( t 1 + 1 2 ) z − ( t 1 + 1 ) / 2 − 1 e − 1 2 z d z \begin{aligned} f_{z}(z|X)&=A_1A_2^{-(t_1+1)/2}\int_0^\infty z^{-(t_1+1)/2-1}e^{-\frac{1}{2z}} dz\\ &=2^{(t_1+1/)2}\Gamma(\frac{t_1+1}{2})A_1A_2^{-(t_1+1)/2}\cdot \int_0^\infty \frac{1}{2^{(t_1+1/)2}\Gamma(\frac{t_1+1}{2})}z^{-(t_1+1)/2-1}e^{-\frac{1}{2z}} dz\\ \end{aligned} fz(zX)=A1A2(t1+1)/20z(t1+1)/21e2z1dz=2(t1+1/)2Γ(2t1+1)A1A2(t1+1)/202(t1+1/)2Γ(2t1+1)1z(t1+1)/21e2z1dz
对比自由度为 t 的逆卡方分布的概率密度函数 f ( x ) = 1 2 t / 2 Γ ( t / 2 ) x − t / 2 − 1 e − 1 2 x 0 < x < ∞ ,很明显上式被积函数是 自由度为 t 1 的逆卡方分布 χ − 2 ( t 1 + 1 ) 的概率密度函数,而一个有效概率密度函数在全部支撑区间内的积分结果自然 为 1 ,所以上式变为 对比自由度为t的逆卡方分布的概率密度函数f(x)=\displaystyle \frac{1}{2^{t/2}\Gamma(t/2)}x^{-t/2-1}e^{-\frac{1}{2x}}\quad0<x<\infty,很明显上式被积函数是\\ 自由度为t_1的逆卡方分布\chi^{-2}(t_1+1)的概率密度函数,而一个有效概率密度函数在全部支撑区间内的积分结果自然\\ 为1,所以上式变为 对比自由度为t的逆卡方分布的概率密度函数f(x)=2t/2Γ(t/2)1xt/21e2x10<x<,很明显上式被积函数是自由度为t1的逆卡方分布χ2(t1+1)的概率密度函数,而一个有效概率密度函数在全部支撑区间内的积分结果自然1,所以上式变为
f μ ( μ ∣ X ) = A 1 A 2 − ( t 1 + 1 ) / 2 ∫ 0 ∞ z − ( t 1 + 1 ) / 2 − 1 e − 1 2 z d z = 2 ( t 1 + 1 / ) 2 Γ ( t 1 + 1 2 ) A 1 A 2 − ( t 1 + 1 ) / 2 = S 1 t 1 / 2 n 1 1 / 2 Γ ( ( t 1 + 1 ) / 2 ) π 1 / 2 Γ ( t 1 / 2 ) [ S 1 + n 1 ( μ − θ 1 ) 2 ] − ( t 1 + 1 ) / 2 ( − ∞ < μ < ∞ ) \begin{aligned} f_{\mu}(\mu|X)&=A_1A_2^{-(t_1+1)/2}\int_0^\infty z^{-(t_1+1)/2-1}e^{-\frac{1}{2z}} dz\\ &=2^{(t_1+1/)2}\Gamma(\frac{t_1+1}{2})A_1A_2^{-(t_1+1)/2}\\ &=\displaystyle \frac{S_1^{t_1/2}n_1^{1/2}\Gamma((t_1+1)/2)}{\pi^{1/2}\Gamma(t_1/2)}[S_1+n_1(\mu-\theta_1)^2]^{-(t_1+1)/2}\quad(-\infty<\mu<\infty) \end{aligned} fμ(μX)=A1A2(t1+1)/20z(t1+1)/21e2z1dz=2(t1+1/)2Γ(2t1+1)A1A2(t1+1)/2=π1/2Γ(t1/2)S1t1/2n11/2Γ((t1+1)/2)[S1+n1(μθ1)2](t1+1)/2(<μ<)
若令 V 2 = S 1 / t 1 ,则上式又可以变为 若令V^2=S_1/t_1,则上式又可以变为 若令V2=S1/t1,则上式又可以变为
f μ ( μ ∣ X ) = n 1 ⋅ Γ ( ( t 1 + 1 ) / 2 ) π t 1 ⋅ V ⋅ Γ ( t 1 / 2 ) [ 1 + 1 t 1 ( μ − θ 1 V / n 1 ) 2 ] − ( t 1 + 1 ) / 2 ( − ∞ < μ < ∞ ) \begin{aligned} f_{\mu}(\mu|X)&=\displaystyle \frac{\sqrt{n_1}\cdot \Gamma((t_1+1)/2)}{\sqrt{\pi t_1}\cdot V\cdot\Gamma(t_1/2)}[1+\frac{1}{t_1}(\frac{\mu-\theta_1}{V/\sqrt{n_1}})^2]^{-(t_1+1)/2}\quad(-\infty<\mu<\infty) \end{aligned} fμ(μX)=πt1 VΓ(t1/2)n1 Γ((t1+1)/2)[1+t11(V/n1 μθ1)2](t1+1)/2(<μ<)
此时再令 k = μ − θ 1 V / n 1 进行最后一次换元,上式变为 此时再令k=\displaystyle \frac{\mu-\theta_1}{V/\sqrt{n_1}}进行最后一次换元,上式变为 此时再令k=V/n1 μθ1进行最后一次换元,上式变为
f k ( k ∣ X ) = f μ ( V ⋅ k n 1 + θ 1 ∣ X ) ⋅ V n 1 = Γ [ ( t 1 + 1 ) / 2 ] π t 1 ⋅ Γ ( t 1 / 2 ) ( 1 + k 2 t 1 ) − ( t 1 + 1 ) / 2 ( − ∞ < k < ∞ ) f_k(k|X)=f_{\mu}(\frac{V\cdot k}{\sqrt{n_1}}+\theta_1|X)\cdot\frac{V}{\sqrt{n_1}}=\displaystyle \frac{\Gamma[(t_1+1)/2]}{\sqrt{\pi t_1}\cdot\Gamma(t_1/2)}(1+\frac{k^2}{t_1})^{-(t_1+1)/2}\quad(-\infty<k<\infty) fk(kX)=fμ(n1 Vk+θ1X)n1 V=πt1 Γ(t1/2)Γ[(t1+1)/2](1+t1k2)(t1+1)/2(<k<)
显然这是一个自由度为 t 1 的 t 分布的密度函数,也就是说 μ − θ 1 V / n 1 ∼ t ( t 1 ) ,于是可以得出结论 μ 的后验边缘分布是 一个位置尺度变换后的 t 分布。又由于 t 分布的概率密度函数是一个偶函数,其分布图象是类似于标准正态分布 关于 Y 轴左右对称的,所以只要自由度大于 1 那么期望值就会收敛到 0 , ( 自由度为 1 时, t 分布为柯西分布,不存在 期望值 ) 所以 E ( μ ∣ X ) = E ( V n 1 t ( t 1 ) + θ 1 ) = 0 + θ 1 = θ 1 。于是最终得出对 μ 的估计为 显然这是一个自由度为t_1的t分布的密度函数,也就是说 \displaystyle \frac{\mu-\theta_1}{V/\sqrt{n_1}}\thicksim t(t_1),于是可以得出结论\mu的后验边缘分布是\\一个位置尺度变换后的t分布。又由于t分布的概率密度函数是一个偶函数,其分布图象是类似于标准正态分布\\关于Y轴左右对称的,所以只要自由度大于1那么期望值就会收敛到0,(自由度为1时,t分布为柯西分布,不存在\\期望值)所以 E(\mu|X)=E{\large(}\frac{V}{\sqrt{n_1}}t(t_1)+\theta_1{\large)}=0+\theta_1=\theta_1。于是最终得出对\mu的估计为 显然这是一个自由度为t1t分布的密度函数,也就是说V/n1 μθ1t(t1),于是可以得出结论μ的后验边缘分布是一个位置尺度变换后的t分布。又由于t分布的概率密度函数是一个偶函数,其分布图象是类似于标准正态分布关于Y轴左右对称的,所以只要自由度大于1那么期望值就会收敛到0,(自由度为1时,t分布为柯西分布,不存在期望值)所以E(μX)=E(n1 Vt(t1)+θ1)=0+θ1=θ1。于是最终得出对μ的估计为
E ( μ ∣ X ) = θ 1 ( t 1 > 1 ) E(\mu|X)=\theta_1\quad(t_1>1) E(μX)=θ1(t1>1)

4. 后验期望值 μ \mu μ方差 φ \varphi φ的估计

1). 总体步骤

  1. 通过以往经验或已知条件估算出前验联合分布中逆卡方分布 S 0 χ − 2 ( t 0 ) 的参数 S 0 , 和 t 0 通过以往经验或已知条件估算出前验联合分布中逆卡方分布S_0\chi^{-2}(t_0)的参数S_0,和t_0 通过以往经验或已知条件估算出前验联合分布中逆卡方分布S0χ2(t0)的参数S0,t0
  2. 通过本次所得样本向量 X 求出样本均值 x − = 1 n ∑ i = 1 n x i ,以及样本数据与样本均值差的平方和 S = ∑ i = 1 n ( x i − μ ) 2 通过本次所得样本向量X求出样本均值\overset{-}{x}=\displaystyle \frac{1}{n}\sum_{i=1}^nx_i,以及样本数据与样本均值差的平方和S=\displaystyle \sum_{i=1}^n(x_i-\mu)^2 通过本次所得样本向量X求出样本均值x=n1i=1nxi,以及样本数据与样本均值差的平方和S=i=1n(xiμ)2
  3. 更新后验分布参数, n 1 = n + n 0 ,   t 1 = t 0 + n ,   θ 1 = n 0 θ 0 + n x − n 1 , S 1 = S 0 + S + n 0 n ( θ 0 − x − ) 2 n 1 , 如果要求 μ 的后验边缘分布还需求出 V = S 1 t 1 更新后验分布参数,n_1=n+n_0,\ t_1=t_0+n,\ \theta_1=\displaystyle \frac{n_0\theta_0+n\overset{-}{x}}{n_1},S_1=S_0+S+\frac{n_0n(\theta_0-\overset{-}{x})^2}{n_1},\\ 如果要求\mu的后验边缘分布还需求出V=\sqrt{\frac{S_1}{t_1}} 更新后验分布参数,n1=n+n0, t1=t0+n, θ1=n1n0θ0+nx,S1=S0+S+n1n0n(θ0x)2如果要求μ的后验边缘分布还需求出V=t1S1
  4. 对 μ 以及 φ 进行后验估计, E ( μ ∣ X ) = θ 1 , E ( φ ∣ X ) = S 1 t 1 − 2 对\mu以及\varphi进行后验估计,E(\mu|X)=\theta_1,E(\varphi|X)=\displaystyle \frac{S_1}{t_1-2} μ以及φ进行后验估计,E(μX)=θ1E(φX)=t12S1

从最终的后验估计方法来看,与之前两种情形并没有不同,但关键参数的求解会有所不同,这是以随机变量为条件和以发生的事件为条件来求定义先验分布所带来的不同

2). 例子

设总体分布 Z ∼ N ( μ , φ ) 。由以往经验可知 : 条件 ( 1 ) μ 应有期望 θ 0 = 1500 , 这差不多时 n 0 = 20 个观测值的结果。 条件 ( 2 ) φ 应有均值 45 ,标准差 19 。 由当前获得样本向量 X 可知 : 条件 ( 3 ) 有样本数量为 n = 25 ,并算得 x − = 1 25 ∑ i = 1 25 x i = 1541 , S = ∑ i = 1 25 ( x i − x − ) = 247 。 那么对 μ 和 φ 的估计推导如下 : 设总体分布Z\thicksim N(\mu,\varphi)。由以往经验可知:\\ 条件(1)\mu应有期望\theta_0=1500,这差不多时n_0=20个观测值的结果。\\ 条件(2)\varphi应有均值45,标准差19。\\ 由当前获得样本向量X可知:\\ 条件(3)有样本数量为n=25,并算得\overset{-}{x}=\frac{1}{25}\sum_{i=1}^{25}x_i=1541,S=\sum_{i=1}^{25}(x_i-\overset{-}{x})=247。\\ 那么对\mu和\varphi的估计推导如下: 设总体分布ZN(μ,φ)。由以往经验可知:条件(1)μ应有期望θ0=1500,这差不多时n0=20个观测值的结果。条件(2)φ应有均值45,标准差19由当前获得样本向量X可知:条件(3)有样本数量为n=25,并算得x=251i=125xi=1541S=i=125(xix)=247那么对μφ的估计推导如下:

  1. { E ( φ ) = S 0 t 0 − 2 = 45 V a r ( φ ) = 2 S 0 2 ( t 0 − 2 ) 2 ( t 0 − 4 ) = 361 ⇒ 解方程组 { t 0 ≈ 15 ( 自由度取整数 ) S 0 = 585 \begin{cases} E(\varphi)&=\displaystyle \frac{S_0}{t_0-2}&=45\\ Var(\varphi)&=\displaystyle \frac{2S_0^2}{(t_0-2)^2(t_0-4)}&=361 \end{cases} \xRightarrow{解方程组} \begin{cases} t_0&\approx15(自由度取整数)\\ S_0&=585 \end{cases} E(φ)Var(φ)=t02S0=(t02)2(t04)2S02=45=361解方程组 {t0S015(自由度取整数)=585
  2. n 1 = n 0 + n = 20 + 25 = 45 ; t 1 = t 0 + n = 15 + 25 = 40 ; θ 1 = n 0 θ 0 + n x − n 1 = 20 × 1500 + 25 × 1541 45 ≈ 1523 S 1 = S 0 + S + n 0 n ( θ 0 − x − ) 2 n 1 = 585 + 247 + 20 × 25 × ( 1500 − 1541 ) 2 45 ≈ 19510 \begin{aligned} n_1&=n_0+n=20+25=45;\\ t_1&=t_0+n=15+25=40;\\ \theta_1&=\displaystyle \frac{n_0\theta_0+n\overset{-}{x}}{n_1}=\frac{20\times 1500+25\times1541}{45}\approx 1523\\ S_1&=S_0+S+\frac{n_0n(\theta_0-\overset{-}{x})^2}{n_1}=585+247+\frac{20\times25\times(1500-1541)^2}{45}\approx19510 \end{aligned} n1t1θ1S1=n0+n=20+25=45=t0+n=15+25=40=n1n0θ0+nx=4520×1500+25×15411523=S0+S+n1n0n(θ0x)2=585+247+4520×25×(15001541)219510
  3. 估计后验期望与方差 : E ( μ ∣ X ) = θ 1 = 1523 ; E ( φ ∣ X ) = S 1 t 1 − 2 = 19510 40 − 2 ≈ 513 估计后验期望与方差:E(\mu|X)=\theta_1=1523;E(\varphi|X)=\displaystyle \frac{S_1}{t_1-2}=\frac{19510}{40-2}\approx 513 估计后验期望与方差:E(μX)=θ1=1523;E(φX)=t12S1=40219510513

c. 参考文献

【1】 洪锡熙 厦门大学《正态分布的共轭分布及贝叶斯估计》1994
【2】 Christopher M. Bishop 《Pattern Recognition and Machine Learning》Springer Science+Business Media, LLC 2006
【3】 Joseph K.Blizstein,Jessica Hwang 《概率论导论》机械工业出版社

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值