由于课程需要,这段时间主要在学习《高等数理统计》(茆诗松等)的无信息先验部分的知识,这部分内容主要还是书中讲解的内容,但是会结合网上的一些资料以及自己的一些理解进行阐述。
贝叶斯统计
贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯(1812)。拉普拉斯重新发现了贝叶斯定理,并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起,随着频率学派(在下文有时也称作经典统计)的兴起,概率的贝叶斯解释逐渐被统计学主流所拒绝。
现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代,经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力,贝叶斯统计学逐渐发展壮大,并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后,随着计算方法MCMC在贝叶斯统计领域的广泛应用,解决了贝叶斯统计学长期存在的计算困难的问题,从而推动了贝叶斯统计在理论和应用领域的长足发展。(以上部分节选自网络)
无信息先验分布
通常在贝叶斯分析中,我们需要指定一个先验,但事实在很多前提下,我们是不知道其先验的,这时我们就可以采用无信息先验分布来进行分析计算。
首先我们来考虑:没有信息的场合如何确定先验分布?
- 无信息先验分布
- 与其它“主观”的先验相比更接近“客观”
后面我们将会介绍几种无信息先验分布:
Bayes 假设
位置参数的无信息先验分布
尺度参数的无信息先验分布
Jeffreys 先验分布
Bayes 假设
有以下几点:
- “没有 θ \theta θ的任何信息” ⇒ \Rightarrow ⇒ 将 θ \theta θ取值范围上的均匀分布作为 θ \theta θ的先验分布。
- “Bayes 假设”:均匀分布
- 例如:如果参数空间 Θ = ( a , b ) \Theta = (a, b) Θ=(a,b),则可用 U ( a , b ) U(a, b) U(a,b)作为先验分布
由此我们引出一些问题:
- 当 Θ \Theta Θ为无限区间,无法定义一个正常的先验分布
- Bayes 假设不满足变换下的不变性
这里我们由一个例子来引出广义先验分布
的概念:
设总体
X
∼
N
(
θ
,
1
)
X \sim N(\theta, 1)
X∼N(θ,1),其中
θ
∈
(
−
∞
,
∞
)
=
Θ
\theta \in (-\infty, \infty) = \Theta
θ∈(−∞,∞)=Θ,若对
θ
\theta
θ既无任何信息,也无偏爱,则应取如下均匀分布:
π
(
θ
)
=
c
,
−
∞
<
θ
<
∞
\pi(\theta) = c, \ \ \ \ \ -\infty<\theta<\infty
π(θ)=c, −∞<θ<∞
不是一个正常的概率密度函数。按Bayes公式计算:
π
(
θ
∣
x
)
=
h
(
x
,
θ
)
m
(
x
)
=
p
(
x
∣
θ
)
π
(
θ
)
∫
−
∞
∞
p
(
x
∣
θ
)
π
(
θ
)
d
θ
=
1
2
π
e
x
p
{
−
1
2
(
θ
−
x
)
2
}
\begin{aligned} \pi(\theta|x)&=\frac{h(x, \theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_{-\infty}^{\infty}p(x|\theta)\pi(\theta)d\theta}\\ &=\frac{1}{\sqrt{2\pi}}exp\left\lbrace -\frac{1}{2}(\theta-x)^2 \right\rbrace \end{aligned}
π(θ∣x)=m(x)h(x,θ)=∫−∞∞p(x∣θ)π(θ)dθp(x∣θ)π(θ)=2π1exp{−21(θ−x)2}
此时,给定 x x x下, θ \theta θ的后验分布为 N ( x , 1 ) N(x, 1) N(x,1)。
下面我们给出广义先验分布
的具体定义:
设总体 X ∼ p ( x ∣ θ ) , θ ∈ Θ X \sim p(x|\theta), \theta \in \Theta X∼p(x∣θ),θ∈Θ,若满足下列条件
- π ( θ ) > 0 \pi(\theta)>0 π(θ)>0且 ∫ Θ π ( θ ) d θ \int_{\Theta}\pi(\theta)d\theta ∫Θπ(θ)dθ
- 由此决定的后验密度
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)是正常的密度函数。
则称 π ( θ ) \pi(\theta) π(θ)为 θ \theta θ的广义先验密度。
前面例子中给出的 π ( θ ) = c \pi(\theta) = c π(θ)=c就是正态均值 θ \theta θ的一个广义先验分布。常选用 π ( θ ) = 1 \pi(\theta) = 1 π(θ)=1。
但这样做会有一些问题,比如:很多时候Bayes假设都不满足变换下的不变性。
- 正态总体 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2):方差 σ 2 \sigma^2 σ2,标准差 σ \sigma σ,均在 ( 0 , ∞ ) (0,\infty) (0,∞)上取值
- σ \sigma σ的先验分布为 π ( σ ) \pi(\sigma) π(σ)
- 则 η = σ 2 \eta = \sigma^2 η=σ2的分布为:
π ( η ) ∣ d σ d η ∣ = π ( η ) / ( 2 η ) \pi(\sqrt{\eta})\left|\frac{d\sigma}{d\eta}\right| = \pi(\sqrt{\eta})/(2\sqrt{\eta}) π(η)∣∣∣∣dηdσ∣∣∣∣=π(η)/(2η)
若 σ \sigma σ的无信息先验分布为常数,那么 η = σ 2 \eta = \sigma^2 η=σ2的无信息先验密度应与 η − 1 / 2 \eta^{-1/2} η−1/2成比例。与Bayes假设矛盾。
位置参数的无信息先验分布
设总体 X X X的密度函数具有形式 p ( x − θ ) p(x-\theta) p(x−θ), θ \theta θ称为位置参数,参数空间与样本空间均为 R \mathbb{R} R。
- Y = X + c Y=X+c Y=X+c
- η = θ + c \eta = \theta+c η=θ+c
Y
Y
Y的密度为
p
(
y
−
η
)
p(y-\eta)
p(y−η),同样是位置参数族成员。
η
\eta
η 与
θ
\theta
θ应具有相同分布。(位置变换下保持不变)所以应该有相同的无信息先验分布:
π
(
τ
)
=
π
∗
(
τ
)
\pi(\tau)=\pi^*(\tau)
π(τ)=π∗(τ)
另一方面,由
η
=
θ
+
c
\eta = \theta+c
η=θ+c,可计算
η
\eta
η的无信息先验密度为:
π
∗
(
η
)
=
∣
d
θ
d
η
∣
π
(
η
−
c
)
=
π
(
η
−
c
)
\pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\eta - c) = \pi(\eta - c)
π∗(η)=∣∣∣∣dηdθ∣∣∣∣π(η−c)=π(η−c)
⇒
π
(
η
)
=
π
(
η
−
c
)
\Rightarrow \pi(\eta) = \pi(\eta - c)
⇒π(η)=π(η−c)
由于
η
\eta
η与
c
c
c的任意性,
θ
\theta
θ的无信息先验分布
π
(
θ
)
\pi (\theta)
π(θ)为一个常数,取其为1。位置参数在位移变换保持不变的无信息先验分布是
π
(
θ
)
=
1
\pi(\theta)=1
π(θ)=1,即Bayes假设。
尺度参数的无信息先验分布
设总体 X X X的密度函数具有形式 1 σ p ( x σ ) \dfrac{1}{\sigma} p(\dfrac{x}{\sigma}) σ1p(σx), σ \sigma σ称为尺度参数,参数空间为 R + \mathbb{R}^+ R+。
- Y = c X ( c > 0 ) Y=cX(c>0) Y=cX(c>0)
- η = c θ \eta =c\theta η=cθ
Y
Y
Y的密度函数为
1
η
p
(
y
η
)
\dfrac{1}{\eta} p(\dfrac{y}{\eta})
η1p(ηy),同样是尺度参数族成员。同样也应该有相同的无信息先验分布:
π
(
τ
)
=
π
∗
(
τ
)
\pi(\tau)=\pi^*(\tau)
π(τ)=π∗(τ)
另一方面,由
η
=
c
θ
\eta = c\theta
η=cθ,可计算
η
\eta
η的无信息先验密度为:
π
∗
(
η
)
=
∣
d
θ
d
η
∣
π
(
η
c
)
=
1
c
π
(
η
c
)
\pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\frac{\eta}{c}) = \frac{1}{c} \pi(\frac{\eta}{c})
π∗(η)=∣∣∣∣dηdθ∣∣∣∣π(cη)=c1π(cη)
⇒
π
(
η
)
=
1
c
π
(
η
c
)
\Rightarrow \pi(\eta) = \frac{1}{c} \pi(\frac{\eta}{c})
⇒π(η)=c1π(cη)
取
η
=
c
\eta=c
η=c,则有
π
(
c
)
=
1
c
π
(
1
)
\pi(c) = \dfrac{1}{c}\pi(1)
π(c)=c1π(1),为方便记,令
π
(
1
)
=
1
\pi(1) = 1
π(1)=1,则
σ
\sigma
σ的无信息先验分布为
π
(
σ
)
=
1
σ
,
σ
>
0
\pi(\sigma) = \dfrac{1}{\sigma},\ \ \ \ \sigma>0
π(σ)=σ1, σ>0
尺度参数在比例变换保持不变的无信息先验分布是
π
(
θ
)
=
1
σ
\pi(\theta)=\dfrac{1}{\sigma}
π(θ)=σ1。与参数为
1
σ
\dfrac{1}{\sigma}
σ1的指数分布
p
(
x
∣
σ
)
=
1
σ
exp
{
−
x
σ
}
p(x|\sigma) = \dfrac{1}{\sigma} \exp \left\lbrace -\dfrac{x}{\sigma} \right\rbrace
p(x∣σ)=σ1exp{−σx} 相结合,其后验密度为:
π
(
σ
∣
x
)
=
h
(
x
,
σ
)
m
(
x
)
=
p
(
x
∣
σ
)
π
(
σ
)
∫
0
∞
p
(
x
∣
σ
)
π
(
σ
)
d
σ
=
x
σ
2
e
x
p
{
−
x
σ
}
\begin{aligned} \pi(\sigma|x)&=\frac{h(x, \sigma)}{m(x)}=\frac{p(x|\sigma)\pi(\sigma)}{\int_{0}^{\infty}p(x|\sigma)\pi(\sigma)d\sigma}\\ &= \dfrac{x}{\sigma^2}exp \left\lbrace -\dfrac{x}{\sigma} \right\rbrace \end{aligned}
π(σ∣x)=m(x)h(x,σ)=∫0∞p(x∣σ)π(σ)dσp(x∣σ)π(σ)=σ2xexp{−σx}
倒Gamma分布的概率密度函数:
p
(
x
;
α
,
β
)
=
β
α
Γ
(
α
)
x
−
α
−
1
exp
(
−
β
x
)
,
α
>
0
,
β
>
0
p(x;\alpha ,\beta )={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{-\alpha -1}\exp \left(-{\frac {\beta }{x}}\right),\alpha>0,\beta>0
p(x;α,β)=Γ(α)βαx−α−1exp(−xβ),α>0,β>0
即后验密度为正常概率密度函数,故上述无信息先验分布是尺度参数
σ
\sigma
σ的广义先验分布。
Jeffreys 先验分布
- 1961年,Jeffreys在他的书里提出了Jeffreys 先验,其最主要性质就是不变性(invariant),即先验的形式不随着参数形式变化而变化。
- 较好地解决了无信息先验中的一个矛盾:若对参数 θ \theta θ选用均匀分布,则其函数 g ( θ ) g(\theta) g(θ)往往不是均匀分布。
- 采用Fisher信息阵的平方根作为 θ \theta θ的无信息先验分布。
其具体的计算过程如下:
设
x
=
(
x
1
,
⋯
,
x
n
)
x = (x_1, \cdots, x_n)
x=(x1,⋯,xn)是来自密度函数
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)的一个样本,其中
θ
=
(
θ
1
,
⋯
,
θ
p
)
\pmb{\theta} = (\theta_1, \cdots, \theta_p)
θθθ=(θ1,⋯,θp)是
p
p
p维参数向量。
- 样本的对数似然函数 l ( θ ∣ x ) = ∑ i = 1 n ln p ( x i ∣ θ ) l(\pmb{\theta} | x) = \sum_{i = 1}^n \text{ln}\ p(x_i | \theta) l(θθθ∣x)=∑i=1nln p(xi∣θ);
- 计算出参数
θ
\pmb{\theta}
θθθ的Fisher信息阵
I ( θ ) = E x ∣ θ ( − ∂ 2 l ∂ θ i ∂ θ j ) i , j = 1 , ⋯ , p \mathbf{I}(\pmb{\theta})=E_{x|\theta}\left( -\dfrac{\partial^2 l}{\partial \theta_i \partial \theta_j} \right)_{i,j=1,\cdots, p} I(θθθ)=Ex∣θ(−∂θi∂θj∂2l)i,j=1,⋯,p
在单参数场合, I ( θ ) = E x ∣ θ ( − ∂ 2 l ∂ θ 2 ) \mathbf{I}(\theta)=E_{x|\theta}\left( -\dfrac{\partial^2 l}{\partial \theta^2} \right) I(θ)=Ex∣θ(−∂θ2∂2l); - θ \pmb{\theta} θθθ的无信息先验密度函数为 π ( θ ) = [ det I ( θ ) ] 1 / 2 \pi (\pmb{\theta}) = [\text{det}\ \mathbf{I}(\pmb{\theta})]^{1/2} π(θθθ)=[det I(θθθ)]1/2.在单参数场合, π ( θ ) = [ I ( θ ) ] 1 / 2 \pi (\pmb{\theta}) = [\mathbf{I}(\theta)]^{1/2} π(θθθ)=[I(θ)]1/2
下面我们具体说明Jeffreys 先验分布的不变性。
Jeffreys 先验分布的不变性
单参数情形:
φ
(
θ
)
\varphi(\theta)
φ(θ)为
θ
\theta
θ的函数,已知:
π
(
θ
)
∝
I
(
θ
)
\pi(\theta )\propto {\sqrt {\mathbf{I}(\theta )}}
π(θ)∝I(θ),考虑
π
(
φ
)
\pi(\varphi)
π(φ):
π
(
φ
)
=
π
(
θ
)
∣
d
θ
d
φ
∣
∝
I
(
θ
)
(
d
θ
d
φ
)
2
=
E
[
(
d
ln
l
d
θ
)
2
]
(
d
θ
d
φ
)
2
=
E
[
(
d
ln
l
d
θ
d
θ
d
φ
)
2
]
=
E
[
(
d
ln
l
d
φ
)
2
]
=
I
(
φ
)
.
\begin{aligned} \pi(\varphi )&=\pi(\theta )\left|{\frac {d\theta }{d\varphi }}\right|\\ &\propto {\sqrt {\mathbf{I}(\theta )\left({\frac {d\theta }{d\varphi }}\right)^{2}}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\theta }}\right)^{2}\right]\left({\frac {d\theta }{d\varphi }}\right)^{2}}}\\ &={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\theta }}{\frac {d\theta }{d\varphi }}\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d\ln l}{d\varphi }}\right)^{2}\right]}}\\ &={\sqrt {\mathbf{I}(\varphi )}}. \end{aligned}
π(φ)=π(θ)∣∣∣∣dφdθ∣∣∣∣∝I(θ)(dφdθ)2=E[(dθdlnl)2](dφdθ)2=E[(dθdlnldφdθ)2]=E[(dφdlnl)2]=I(φ).
多参数向量情形:
π ( φ ⃗ ) = π ( θ ⃗ ) ∣ det ∂ θ i ∂ φ j ∣ ∝ det I ( θ ⃗ ) det 2 ∂ θ i ∂ φ j = det ∂ θ k ∂ φ i det E [ ∂ ln L ∂ θ k ∂ ln L ∂ θ l ] det ∂ θ l ∂ φ j = det E [ ∑ k , l ∂ θ k ∂ φ i ∂ ln L ∂ θ k ∂ ln L ∂ θ l ∂ θ l ∂ φ j ] = det E [ ∂ ln L ∂ φ i ∂ ln L ∂ φ j ] = det I ( φ ⃗ ) . \begin{aligned}\pi({\vec \varphi })&=\pi({\vec \theta })\left|\det {\frac {\partial \theta _{i}}{\partial \varphi _{j}}}\right|\\&\propto {\sqrt {\det I({\vec \theta })\,{\det }^{2}{\frac {\partial \theta _{i}}{\partial \varphi _{j}}}}}\\&={\sqrt {\det {\frac {\partial \theta _{k}}{\partial \varphi _{i}}}\,\det \operatorname {E}\!\left[{\frac {\partial \ln L}{\partial \theta _{k}}}{\frac {\partial \ln L}{\partial \theta _{l}}}\right]\,\det {\frac {\partial \theta _{l}}{\partial \varphi _{j}}}}}\\&={\sqrt {\det \operatorname {E}\!\left[\sum _{{k,l}}{\frac {\partial \theta _{k}}{\partial \varphi _{i}}}{\frac {\partial \ln L}{\partial \theta _{k}}}{\frac {\partial \ln L}{\partial \theta _{l}}}{\frac {\partial \theta _{l}}{\partial \varphi _{j}}}\right]}}\\&={\sqrt {\det \operatorname {E}\!\left[{\frac {\partial \ln L}{\partial \varphi _{i}}}{\frac {\partial \ln L}{\partial \varphi _{j}}}\right]}}={\sqrt {\det I({\vec \varphi })}}.\end{aligned} π(φ)=π(θ)∣∣∣∣det∂φj∂θi∣∣∣∣∝detI(θ)det2∂φj∂θi=det∂φi∂θkdetE[∂θk∂lnL∂θl∂lnL]det∂φj∂θl=detE⎣⎡k,l∑∂φi∂θk∂θk∂lnL∂θl∂lnL∂φj∂θl⎦⎤=detE[∂φi∂lnL∂φj∂lnL]=detI(φ).
下面我们以一个例子来详细介绍Jeffreys 先验分布:
设 X = ( x 1 , ⋯ , x n ) X= (x_1, \cdots, x_n) X=(x1,⋯,xn)来自正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的一个样本,现求参数向量 ( μ , σ ) (\mu, \sigma) (μ,σ)的Jeffreys 先验。
正态总体的对数似然函数
l
(
μ
,
σ
)
=
−
1
2
ln
(
2
π
)
−
n
ln
σ
−
1
2
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
2
l(\mu, \sigma) = -\frac{1}{2}\ln(2\pi) - n \ln \sigma - \frac{1}{2\sigma^2}\sum_{i=1}^n(x_i - \mu)^2
l(μ,σ)=−21ln(2π)−nlnσ−2σ21i=1∑n(xi−μ)2
其Fisher信息阵为:
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \mathbf{I}(\mu…
因此
(
μ
,
σ
)
(\mu, \sigma)
(μ,σ)的Jeffreys 先验为
π
(
μ
,
σ
)
∝
σ
−
2
\pi(\mu, \sigma) \propto \sigma^{-2}
π(μ,σ)∝σ−2
根据上面的例子,我们可以发现几个特例:
- 当 σ \sigma σ已知时, I ( μ ) = − E ( − ∂ 2 l ∂ μ 2 ) = n / σ 2 I(\mu) = - \text{E}\left( -\dfrac{\partial^2 l}{\partial \mu^2} \right) = n/\sigma^2 I(μ)=−E(−∂μ2∂2l)=n/σ2,故 π ( μ ) = 1 \pi(\mu)=1 π(μ)=1, μ ∈ R \mu \in \mathbb{R} μ∈R;
- 当 μ \mu μ已知时, I ( σ ) = − E ( − ∂ 2 l ∂ σ 2 ) = 2 n / σ 2 I(\sigma) = - \text{E}\left( -\dfrac{\partial^2 l}{\partial \sigma^2} \right) = 2n/\sigma^2 I(σ)=−E(−∂σ2∂2l)=2n/σ2,故 π ( σ ) = 1 / σ \pi(\sigma)=1/\sigma π(σ)=1/σ, σ ∈ R + \sigma \in \mathbb{R^+} σ∈R+;
- 当 μ \mu μ与 σ \sigma σ独立时, π ( μ , σ ) = π ( μ ) ∗ π ( σ ) = 1 / σ \pi(\mu, \sigma)=\pi(\mu) * \pi(\sigma)=1/\sigma π(μ,σ)=π(μ)∗π(σ)=1/σ, μ ∈ R \mu \in \mathbb{R} μ∈R, σ ∈ R + \sigma \in \mathbb{R^+} σ∈R+.
由此可见: μ \mu μ与 σ \sigma σ的无先验分布是不独立的。其有两种形式: σ − 1 \sigma^{-1} σ−1与 σ − 2 \sigma^{-2} σ−2。Jeffreys最终推荐的形式是 σ − 1 \sigma^{-1} σ−1,其实际表现效果也更加出色。
另外我们介绍一个二项分布的例子,设
θ
\theta
θ为成功概率,则在
n
n
n次独立试验中成功次数
X
X
X服从二项分布
P
(
X
=
x
)
=
(
n
x
)
θ
x
(
1
−
θ
)
n
−
x
,
x
=
0
,
1
,
⋯
,
n
P(X = x) = \begin{pmatrix} n \\ x \end{pmatrix}\theta^x(1-\theta)^{n-x},\ x = 0, 1, \cdots, n
P(X=x)=(nx)θx(1−θ)n−x, x=0,1,⋯,n
在二项分布场合下,成功概率
θ
\theta
θ的Jeffreys 先验分布为
π
(
θ
)
∝
θ
−
1
/
2
(
1
−
θ
)
−
1
/
2
,
θ
∈
(
0
,
1
)
\pi(\theta) \propto \theta^{-1/2}(1-\theta)^{-1/2},\ \theta \in (0, 1)
π(θ)∝θ−1/2(1−θ)−1/2, θ∈(0,1)
最后,关于成功概率
θ
\theta
θ的无信息先验分布,这里列出其中四种:
π
1
(
θ
)
=
1
−
Bayes(1763)和Laplace(1812)采用过
.
π
2
(
θ
)
=
θ
−
1
(
1
−
θ
)
−
1
−
Novick和Hall(1965)导出
.
π
3
(
θ
)
=
θ
−
1
/
2
(
1
−
θ
)
−
1
/
2
−
Jeffreys(1968)导出
.
π
4
(
θ
)
=
θ
θ
(
1
−
θ
)
1
−
θ
−
Zellner(1977)导出
.
\begin{aligned} \pi_1(\theta) &= 1 &-\text{Bayes(1763)和Laplace(1812)采用过}&.\\ \pi_2(\theta) &= \theta^{-1}(1-\theta)^{-1} &-\text{Novick和Hall(1965)导出}&.\\ \pi_3(\theta) &= \theta^{-1/2}(1-\theta)^{-1/2} &-\text{Jeffreys(1968)导出}&.\\ \pi_4(\theta) &= \theta^{\theta}(1-\theta)^{1-\theta} &-\text{Zellner(1977)导出}&.\\ \end{aligned}
π1(θ)π2(θ)π3(θ)π4(θ)=1=θ−1(1−θ)−1=θ−1/2(1−θ)−1/2=θθ(1−θ)1−θ−Bayes(1763)和Laplace(1812)采用过−Novick和Hall(1965)导出−Jeffreys(1968)导出−Zellner(1977)导出....
π
1
\pi_1
π1是正常密度,
π
2
\pi_2
π2是不正常密度,
π
3
\pi_3
π3,
π
4
\pi_4
π4正则化后是正常密度。
无信息先验不唯一,并且很少对结果产生重大影响,所以理论上任何无信息先验都可以采用。