高斯分布的前身今世
0.参考
从高斯分布的导出讲起——为什么概率密度函数长成这个样子? 作者:蓦风星吟
1.高斯分布的概率密度函数
f
(
x
)
=
1
2
π
σ
2
e
−
(
x
−
μ
)
2
2
σ
2
f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
f(x)=2πσ21e−2σ2(x−μ)2
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2),
μ
\mu
μ反应的是位置,
σ
\sigma
σ反应的是形状。
2.几个概念
2.1 似然(Likelihood)
第一点 什么是似然
简单通俗的来讲就是,一系列的概率密度函数的乘积,说白了也就是还是一种特别的复合的“概率”。比如对于正态分布,如果有独立同分布的观察值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn,则其似然为: L ( x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n 1 2 π σ 2 e − ( x i − μ ) 2 2 σ 2 L(x_1,x_2,\cdots,x_n)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} L(x1,x2,⋯,xn)=i=1∏n2πσ21e−2σ2(xi−μ)2
我们也可以看到对于正态分布,这里还依赖于两个参数,就是 μ \mu μ和 σ \sigma σ的二元函数。当然在给其中一个参数的情况下,我们也可以将其看成关于另一个的函数。
第二点 最大似然(Maximum Likelihood)
对于正态这个似然,在给其中一个参数的情况下,我们也可以将其看成关于另一个的函数。因此,在给定一个标准的情况下,那么是不是可以基于观测值对其中的未知参数进行估计呢?这是个非常朴素想法,就好比方程的思想,原本一个函数,给定自变量,那么对应的函数值自然可以计算。反过来,若是给定一定函数值,理论上我们也希望试图找到对应的自变量。这个想法再进一步就是,给定一个标准,比如最大,最小,我们基于这个标准,也试图去寻找对应达到标准 (比如最大,最小函数值)所对应的自变量,这就是参数估计的思想。
回到最大似然发的核心,在这里这个标准就是使得似然函数(关于某一或某一些参数的)最大,然后去估计对应的参数(基于观测值)的值。
至于为什么选择似然函数呢,其实主要也是因为似然函数朴素简单的表达出一种概率,一个基于n次观测的整体的概率,这样的情况下,我们自然朴素的认为或者是希望,似然中包含的合理的参数应该使得我们整体的概率最大的一个或者是一组,因此才被我们观测到。
3.如何基于一些假设导出正态分布
实际的测量中,若 μ \mu μ是分布均值的真实值,当然真实值我们永远不知道,只能希望根据观测值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn尽可能的去估计它。首先我们记观察误差 x i − μ x_i-\mu xi−μ的分布密度函数为 p ( x i − μ ) p(x_i-\mu) p(xi−μ),然后给出以下假设:
1. p ( x ) p(x) p(x)关于 x = 0 x=0 x=0对称,且对于一切 x x x成立 p ( x ) > 0 p(x)>0 p(x)>0
2. p ( x ) p(x) p(x)具有连续的导函数
下面来考察这两个假设的合理性
1.首先 p ( x ) p(x) p(x)关于 x = 0 x=0 x=0对称,这个假设非常合理,因为我们的似然误差分布密度函数为 p ( x i − μ ) p(x_i-\mu) p(xi−μ),也就是观测值与真实均值的差,这个自然在左右的可能性一样,不然这个观测试验也就有偏颇了,当然另一个理由就是经验,再说非负性要求,这个也是必须的,概率没有负的。
2.连续的导函数,这个是为了求导方便。
由于我们的观察误差
x
i
−
μ
x_i-\mu
xi−μ的分布密度函数为
p
(
x
i
−
μ
)
p(x_i-\mu)
p(xi−μ),那么此时的似然函数就是:
L
(
μ
)
=
∏
i
=
1
n
p
(
x
i
−
μ
)
L(\mu)=\prod_{i=1}^np(x_i-\mu)
L(μ)=i=1∏np(xi−μ)
实际上,这个似然函数刻画了这组观测值落在真实均值
μ
\mu
μ
附近的可能性大小。当然此处高斯还给出了一个重要的假设:
观察值的平均值 x ˉ = 1 n ∑ i = 1 n x i \bar x=\frac{1}{n}\sum_{i=1}^{n}x_i xˉ=n1∑i=1nxi作为未知参数 μ \mu μ的估计值时,使得似然 L ( μ ) L(\mu) L(μ)最大。
事实上,下面的推导主要还是依赖于这个假设。回头看看这个假设,其实也是符合逻辑和直观感受的,这表明观测的均值作为一个理论均值可以让似然函数最大。
4.高斯分布的导出的具体过程
若 x ˉ \bar x xˉ使得似然函数 L ( μ ) L(\mu) L(μ)最大,则必要条件就是 d L ( μ ) d μ ∣ μ = x ˉ = 0 \frac{dL(\mu)}{d\mu}|_{\mu=\bar x}=0 dμdL(μ)∣μ=xˉ=0,再加上对数即: d ln L ( μ ) d μ ∣ μ = x ˉ = 0 \frac{d\ln L(\mu)}{d\mu}|_{\mu=\bar x}=0 dμdlnL(μ)∣μ=xˉ=0,记 d ln p ( x ) d x = g ( x ) \frac{d\ln p(x)}{dx}=g(x) dxdlnp(x)=g(x),进一步就是 p ′ ( x ) p ( x ) = g ( x ) \frac{p^{'}(x)}{p(x)}=g(x) p(x)p′(x)=g(x),代入到上式得: d ln L ( μ ) d μ ∣ μ = x ˉ = d ln ∏ i = 1 n p ( x i − μ ) d μ ∣ μ = x ˉ = d ∑ i = 1 n ln p ( x i − μ ) d μ ∣ μ = x ˉ = ∑ i = 1 n d ln p ( x i − μ ) d μ ∣ μ = x ˉ = − ∑ i = 1 n g ( x i − μ ) ∣ μ = x ˉ = − ∑ i = 1 n g ( x i − x ˉ ) = 0 \begin{aligned}\frac{d\ln L(\mu)}{d\mu}|_{\mu=\bar x}&=\frac{d\ln \prod_{i=1}^np(x_i-\mu)}{d\mu}|_{\mu=\bar x}\\&=\frac{d\sum_{i=1}^n\ln p(x_i-\mu)}{d\mu}|_{\mu=\bar x}\\&=\sum_{i=1}^n\frac{d\ln p(x_i-\mu)}{d\mu}|_{\mu=\bar x}\\&=-\sum_{i=1}^ng(x_i-\mu)|_{\mu=\bar x}\\&=-\sum_{i=1}^ng(x_i-\bar x)\\&=0\end{aligned} dμdlnL(μ)∣μ=xˉ=dμdln∏i=1np(xi−μ)∣μ=xˉ=dμd∑i=1nlnp(xi−μ)∣μ=xˉ=i=1∑ndμdlnp(xi−μ)∣μ=xˉ=−i=1∑ng(xi−μ)∣μ=xˉ=−i=1∑ng(xi−xˉ)=0
我们得到了 ∑ i = 1 n g ( x i − x ˉ ) = 0 \sum_{i=1}^ng(x_i-\bar x)=0 ∑i=1ng(xi−xˉ)=0。
若我们令 n = 2 n=2 n=2,即得: g ( x 1 − x ˉ ) + g ( x 2 − x ˉ ) = 0 g(x_1-\bar x)+g(x_2-\bar x)=0 g(x1−xˉ)+g(x2−xˉ)=0,因为 x ˉ = x 1 + x 2 2 \bar x=\frac{x_1+x_2}{2} xˉ=2x1+x2,移项得: x 1 − x ˉ = − ( x 2 − x ˉ ) x_1-\bar x=-(x_2-\bar x) x1−xˉ=−(x2−xˉ),代入上式得: g ( − ( x 2 − x ˉ ) ) + g ( x 2 − x ˉ ) = 0 g(-(x_2-\bar x))+g(x_2-\bar x)=0 g(−(x2−xˉ))+g(x2−xˉ)=0,又因为 x 1 , x 2 x_1,x_2 x1,x2是任意的,所以 g ( x ) = − g ( − x ) g(x)=-g(-x) g(x)=−g(−x),即 g ( x ) g(x) g(x)是一个中心对称的函数(关于原点对称)。
若我们令令 n = 3 n=3 n=3,即得: g ( x 1 − x ˉ ) + g ( x 2 − x ˉ ) + g ( x 3 − x ˉ ) = 0 g(x_1-\bar x)+g(x_2-\bar x)+g(x_3-\bar x)=0 g(x1−xˉ)+g(x2−xˉ)+g(x3−xˉ)=0,因为 x ˉ = x 1 + x 2 + x 3 3 \bar x=\frac{x_1+x_2+x_3}{3} xˉ=3x1+x2+x3,移项得: x 1 − x ˉ = − [ ( x 2 − x ˉ ) + ( x 3 − x ˉ ) ] x_1-\bar x=-[(x_2-\bar x)+(x_3-\bar x)] x1−xˉ=−[(x2−xˉ)+(x3−xˉ)],代入上式得: g ( − [ ( x 2 − x ˉ ) + ( x 3 − x ˉ ) ] ) + g ( x 2 − x ˉ ) + g ( x 3 − x ˉ ) = 0 g(-[(x_2-\bar x)+(x_3-\bar x)])+g(x_2-\bar x)+g(x_3-\bar x)=0 g(−[(x2−xˉ)+(x3−xˉ)])+g(x2−xˉ)+g(x3−xˉ)=0,因为 x 1 , x 2 , x 3 x_1,x_2,x_3 x1,x2,x3是任意的,所以 g ( − ( x + y ) ) + g ( x ) + g ( y ) = 0 g(-(x+y))+g(x)+g(y)=0 g(−(x+y))+g(x)+g(y)=0,根据 g ( x ) g(x) g(x)是中心对称函数,化简得: g ( x + y ) = g ( x ) + g ( y ) g(x+y)=g(x)+g(y) g(x+y)=g(x)+g(y),这个也就是柯西方程,这类方程在有理数范围内,可以得到唯一的通解 g ( x ) = b x g(x)=bx g(x)=bx。
4.1 补充:柯西方程的推导
首先对于 x ∈ N + x\in N^+ x∈N+,
令 x = y = 1 x=y=1 x=y=1,即得: g ( 2 ) = 2 g ( 1 ) g(2)=2g(1) g(2)=2g(1)
令 x = 1 , y = 2 x=1,y=2 x=1,y=2,即得: g ( 3 ) = g ( 1 ) + g ( 2 ) = 3 g ( 1 ) g(3)=g(1)+g(2)=3g(1) g(3)=g(1)+g(2)=3g(1)
⋯ \cdots ⋯
同理: g ( n ) = n g ( 1 ) g(n)=ng(1) g(n)=ng(1),即在正整数域中,成立。
推广到一般有理数:
令 x = y = q p x=y=\frac{q}{p} x=y=pq,其中 q , p ∈ Z q,p\in \mathbb{Z} q,p∈Z,即得: g ( 2 q p ) = 2 g ( q p ) g(\frac{2q}{p})=2g(\frac{q}{p}) g(p2q)=2g(pq)
令 x = q p , y = 2 q p x=\frac{q}{p},y=\frac{2q}{p} x=pq,y=p2q,即得: g ( 3 q p ) = g ( q p ) + g ( 2 q p ) = 3 g ( q p ) g(\frac{3q}{p})=g(\frac{q}{p})+g(\frac{2q}{p})=3g(\frac{q}{p}) g(p3q)=g(pq)+g(p2q)=3g(pq)
⋯ \cdots ⋯
同理: g ( p ⋅ q p ) = p ⋅ g ( q p ) g(\frac{p\cdot q}{p})=p\cdot g(\frac{q}{p}) g(pp⋅q)=p⋅g(pq),进一步化简: p ⋅ g ( q p ) = g ( q ⋅ 1 ) = q ⋅ g ( 1 ) p\cdot g(\frac{q}{p})=g(q\cdot 1)=q\cdot g(1) p⋅g(pq)=g(q⋅1)=q⋅g(1),移项得: g ( q p ) = q p ⋅ g ( 1 ) g(\frac{q}{p})=\frac{q}{p}\cdot g(1) g(pq)=pq⋅g(1),证毕。
回到之前,因为
g
(
x
)
=
b
x
,
p
′
(
x
)
p
(
x
)
=
g
(
x
)
g(x)=bx,\frac{p^{'}(x)}{p(x)}=g(x)
g(x)=bx,p(x)p′(x)=g(x)得:
p
′
(
x
)
p
(
x
)
=
b
x
\frac{p^{'}(x)}{p(x)}=bx
p(x)p′(x)=bx,解一下简单的微分方程得:
p
(
x
)
=
C
⋅
e
b
2
x
2
,
−
∞
<
x
<
+
∞
p(x)=C\cdot e^{\frac{b}{2}x^2},-\infty<x<+\infty
p(x)=C⋅e2bx2,−∞<x<+∞,因为
p
(
x
)
p(x)
p(x)是概率密度函数,所以
b
<
0
b<0
b<0,我们记
b
=
−
1
σ
2
b=-\frac{1}{\sigma^2}
b=−σ21,使所以:
p
(
x
)
=
C
⋅
e
−
x
2
2
σ
2
,
−
∞
<
x
<
+
∞
p(x)=C\cdot e^{-\frac{x^2}{2\sigma^2}},-\infty<x<+\infty
p(x)=C⋅e−2σ2x2,−∞<x<+∞,
因为概率密度函数在可行范围内积分为
1
1
1,即:
∫
−
∞
+
∞
C
⋅
e
−
x
2
2
σ
2
d
x
=
1
→
C
⋅
∫
−
∞
+
∞
e
−
x
2
2
σ
2
d
x
=
1
→
∫
−
∞
+
∞
e
−
x
2
2
σ
2
d
x
=
1
C
→
∫
−
∞
+
∞
e
−
x
2
2
σ
2
d
x
∫
−
∞
+
∞
e
−
y
2
2
σ
2
d
y
=
1
C
2
→
∬
D
e
−
x
2
+
y
2
2
σ
2
d
x
d
y
=
1
C
2
→
4
∫
0
π
2
d
θ
∫
0
+
∞
e
−
r
2
2
σ
2
r
d
r
=
1
C
2
→
−
4
σ
2
∫
0
π
2
e
−
r
2
2
σ
2
∣
0
+
∞
d
θ
=
1
C
2
→
−
4
σ
2
∫
0
π
2
−
1
d
θ
=
1
C
2
→
2
π
σ
2
=
1
C
2
→
C
=
1
2
π
σ
2
\begin{aligned}&\int_{-\infty}^{+\infty}C\cdot e^{-\frac{x^2}{2\sigma^2}} dx=1 \\ \rightarrow &C\cdot \int_{-\infty}^{+\infty}e^{-\frac{x^2}{2\sigma^2}} dx=1 \\ \rightarrow &\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2\sigma^2}} dx=\frac{1}{C} \\ \rightarrow &\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2\sigma^2}} dx\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2\sigma^2}} dy=\frac{1}{C^2}\\ \rightarrow &\iint_D e^{-\frac{x^2+y^2}{2\sigma^2}} dxdy=\frac{1}{C^2}\\ \rightarrow &4\int_{0}^{\frac{\pi}{2}}d\theta\int_0^{+\infty} e^{-\frac{r^2}{2\sigma^2}} rdr=\frac{1}{C^2}\\ \rightarrow &-4\sigma^2\int_{0}^{\frac{\pi}{2}} e^{-\frac{r^2}{2\sigma^2}}\bigg|_0^{+\infty}d\theta =\frac{1}{C^2} \\ \rightarrow &-4\sigma^2\int_{0}^{\frac{\pi}{2}} -1d\theta =\frac{1}{C^2} \\ \rightarrow &2\pi\sigma^2 =\frac{1}{C^2} \\ \rightarrow & C=\frac{1}{\sqrt{2\pi\sigma^2}} \end{aligned}
→→→→→→→→→∫−∞+∞C⋅e−2σ2x2dx=1C⋅∫−∞+∞e−2σ2x2dx=1∫−∞+∞e−2σ2x2dx=C1∫−∞+∞e−2σ2x2dx∫−∞+∞e−2σ2y2dy=C21∬De−2σ2x2+y2dxdy=C214∫02πdθ∫0+∞e−2σ2r2rdr=C21−4σ2∫02πe−2σ2r2
0+∞dθ=C21−4σ2∫02π−1dθ=C212πσ2=C21C=2πσ21,
最终我们推导出:
p
(
x
)
=
1
2
π
σ
2
e
−
x
2
2
σ
2
p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{x^2}{2\sigma^2}}
p(x)=2πσ21e−2σ2x2,一般形式就为:
f
(
x
)
=
1
2
π
σ
2
e
−
(
x
−
μ
)
2
2
σ
2
f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
f(x)=2πσ21e−2σ2(x−μ)2
5.高斯分布的性质
首先,对于一个分布,我们最关心的是什么?
没错,是密度分布函数(Probability density function,pdf),所以密度函数当然我们已经得到了
f
(
x
)
=
1
2
π
σ
2
e
−
(
x
−
μ
)
2
2
σ
2
f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
f(x)=2πσ21e−2σ2(x−μ)2,那么之后想必是累计密度函数(Cumulative distribution function,cdf),顾名思义,所谓cdf就是对pdf的累计,从图上讲也就是在pdf的图上从负无穷到正无穷的积分过程,对于高斯分布来讲:
c
(
x
)
=
1
2
π
σ
2
∫
−
∞
x
e
−
(
t
−
μ
)
2
2
σ
2
d
t
=
1
2
π
σ
2
∫
−
∞
x
exp
(
−
(
t
−
μ
2
σ
)
2
)
d
t
=
1
2
π
σ
2
[
∫
−
∞
0
exp
(
−
(
t
−
μ
2
σ
)
2
)
d
t
+
∫
0
x
exp
(
−
(
t
−
μ
2
σ
)
2
)
d
t
]
=
1
2
+
1
2
⋅
2
π
⋅
∫
0
x
exp
(
−
(
t
−
μ
2
σ
)
2
)
d
(
t
−
μ
2
σ
)
=
1
2
[
1
+
1
2
e
r
f
(
x
−
μ
2
σ
)
]
\begin{aligned}c(x)&=\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^xe^{-\frac{(t-\mu)^2}{2\sigma^2}}dt\\&=\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^x\exp\left(-({\frac{t-\mu}{\sqrt{2}\sigma}})^2\right)dt\\&=\frac{1}{\sqrt{2\pi\sigma^2}}\left[\int_{-\infty}^0\exp\left(-({\frac{t-\mu}{\sqrt{2}\sigma}})^2\right)dt+\int_{0}^x\exp\left(-({\frac{t-\mu}{\sqrt{2}\sigma}})^2\right)dt\right]\\&=\frac{1}{2}+\frac{1}{2}\cdot\frac{2}{\sqrt{\pi}}\cdot\int_{0}^x\exp\left(-({\frac{t-\mu}{\sqrt{2}\sigma}})^2\right)d({\frac{t-\mu}{\sqrt{2}\sigma}})\\&=\frac{1}{2}[1+\frac{1}{2}erf(\frac{x-\mu}{\sqrt{2}\sigma})]\end{aligned}
c(x)=2πσ21∫−∞xe−2σ2(t−μ)2dt=2πσ21∫−∞xexp(−(2σt−μ)2)dt=2πσ21[∫−∞0exp(−(2σt−μ)2)dt+∫0xexp(−(2σt−μ)2)dt]=21+21⋅π2⋅∫0xexp(−(2σt−μ)2)d(2σt−μ)=21[1+21erf(2σx−μ)]
这里erf是指Gauss error function即:
2
π
∫
−
x
x
e
x
p
(
−
t
2
)
d
t
\frac{2}{\sqrt{\pi}}\int_{-x}^{x}exp(-t^2)dt
π2∫−xxexp(−t2)dt,若是把cdf放在图中也就是下面这个:
5.1 期望,方差
从某种意义上说,我们所认识的世界,我们定量认知下的世界,就是由均值和方差所构成的。对于高斯分布,恰好就是由这两个因素唯一决定的,换言之,确定了一个均值和方差,我们是确定了一个高斯分布,反之,若是确定了一个高斯分布,那么它的均值和方差也是唯一确定的。因此,随机变量X服从以均值 μ \mu μ和方差 σ 2 \sigma^2 σ2的高斯分布可以记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)
5.2 对称性
高斯分布它正是个对称的分布。
因为对称,各种计算都可以简化为算一半;
因为对称,那么所谓的均值就会在pdf的对称轴,当然对于高斯分布,统计学中的中位数,众数都是对称轴。
对于一个高斯分布,想要概率最大,只需要取到均值即可。
5.3 密度函数无限可微
直观来看这个密度函数自然是非常光滑,没有任何的间断点和尖点,从表达式看,核心的原因就是指数函数的优良性质都赋予的。
5.4 尾端效应
假定一个随机变量
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2),那么该变量出现在均值加减一倍的标准差的范围的概率有68.27%,而该变量出现在均值加减两倍的标准差的范围的概率就可以达到95.45%。
没错,就是那个就置信区间的东西,95%的置信区间,而这个对应的95%的概率的就是2倍不到一点(1.96倍)的标准差,即该变量出现在均值加减1.96倍的标准差的范围的概率就可以一达到95%。
因为在很多的应用中,我们经常会均值加减2(或更精确是1.96)倍的标准差的范围去近似事件出现的范围,因为此时的概率已然到达了95%,属于大概率发生的。想要继续精确,那么该变量出现在均值加减3倍的标准差的范围的概率就可以直接达到99.73%。换言之,只有0.27%的概率发生这个区间外的意外,因此对于一个高斯分布的变量,其实3倍的标准差就已经毫无疑问的包含了一个大概率的置信区间。
5.4 独立随机变量的"和差积商"
两个满足独立高斯分布的随机变量的和与差都仍然是高斯分布,并且我们可以发现,和的均值是均值的和,差是均值是均值的差。
乘积的分布不再是高斯分布了,虽然mean仍然可以说是等于各自均值的乘积,然而variance却没有了明显的结论了。
需要强调的另一点是
:两个独立高斯分布的随机变量的乘积不是高斯分布,但是两个高斯密度函数的乘积仍然可以做成一个高斯的密度函数。
X
∼
N
(
μ
x
,
σ
x
2
)
X \sim N(\mu_x,\sigma_x^2)
X∼N(μx,σx2),这里
μ
x
=
(
σ
1
−
2
+
σ
2
−
2
)
−
1
(
σ
1
−
2
μ
1
+
σ
2
−
2
μ
2
)
,
σ
x
2
=
(
σ
1
−
2
+
σ
2
−
2
)
−
1
\mu_x=(\sigma_1^{-2}+\sigma_2^{-2})^{-1}(\sigma_1^{-2}\mu_1+\sigma_2^{-2}\mu_2),\sigma_x^2=(\sigma_1^{-2}+\sigma_2^{-2})^{-1}
μx=(σ1−2+σ2−2)−1(σ1−2μ1+σ2−2μ2),σx2=(σ1−2+σ2−2)−1
5.5共轭分布的封闭性
这一点其实也是在贝叶斯统计下的非常有意义的一点
5.5.1 什么是共轭分布
对于先验分布和后验分布属于同类别的分布,则先验与后验称为共轭分布,而先验分布被称为似然函数的共轭先验。
直白的说似然函数就是那个给定N个观测点然后代入概率密度函数的乘积,
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ),这里的
X
X
X可是
N
N
N个观测点的所有,
θ
\theta
θ指的是所有分布中的参数。
先验分布和后验分布是同一个分布,或者说先验分布的后验就是其自身(也就是所谓的自共轭)没错,对于高斯分布,它的共轭分布就是它自己
!这也就是所谓的封闭性(当然这里的封闭是强封闭,不仅限于类,而封闭在具体的分布上)。
回到刚才说的,若是先验是高斯的,外加似然是高斯似然(当然若是给定N个独立的观测值,每个假定服从高斯分布,那么N高斯分布的密度函数的乘积也必定是高斯分布),那么所谓的后验分布是不是也是高斯的。
封闭性有什么好处呢?这个一时半会我还真说不上有什么好,但是很重要那是肯定的。回忆一下一些近世代数的知识,什么?没有学过?好吧,那举个简单的例子,比如有理数与加法运算,想想,无论如何一个有理数加一个有理数总还是一个有理数吧?但是如果是针对有理数和开根号运算,那么结果可就不一定喽!这就是所谓的封闭性,有理数对于加法是封闭的,而对于开根号运算就不是。当然,这里就大致就可以看出封闭性的优势,就是至少可以保证集合中的元素经过运算后仍然在集合中哦!
因此,对于高斯分布,由于这个重重重要的封闭性,极大的加快了贝叶斯推断,因为后验分布可以直接根据先验和似然的表达,直接得到后验的具体显示解析表达式,在数学上,一旦有了显示的解析表达式,也就意味着万事大吉啊!
从另一个角度来看,还可以得出其他结论。首先我们回忆一下全概率公式:
P
(
A
)
=
∑
n
P
(
A
∣
B
n
)
P
(
B
n
)
P(A)=\sum_nP(A|B_n)P(B_n)
P(A)=n∑P(A∣Bn)P(Bn),其中
P
P
P是概率
至于它的用处么,即可以将对一复杂事件A的概率求解问题转化为了在不同情况或不同原因 Bn下发生的简单事件的概率的求和问题。当然这个是我们所熟知的离散形式,若是连续呢?
p
(
x
)
=
∫
w
p
(
x
∣
w
)
p
(
w
)
d
w
p(x)=\int_wp(x|w)p(w)dw
p(x)=∫wp(x∣w)p(w)dw,其中
p
p
p为概率密度。
统一起来就是
P
(
A
)
=
E
[
P
(
A
∣
B
)
]
P(A)=\mathbb{E}[P(A|B)]
P(A)=E[P(A∣B)],所以,A的先验概率可以表示为A的后验概率的期望
。
对于高斯分布,给定高斯随机变量 B B B,以及 A A A在 B B B的条件高斯分布,则我们也可以保证 A A A的先验分布仍是高斯分布,举个简单例子, p ( A ∣ B ) = N ( B , 1 ) , p ( B ) = N ( 0 , 1 ) p(A|B) = N(B,1),p(B) = N(0,1) p(A∣B)=N(B,1),p(B)=N(0,1),则 p ( A ) = ∫ p ( A ∣ B ) p ( B ) d w = ∫ N ( w , 1 ) N ( 0 , 1 ) d w ∝ ∫ e x p ( − ( x − w ) 2 2 ) e x p ( − x 2 2 ) d w ∝ e x p ( − x 2 4 ) \begin{aligned}p(A)&=\int p(A|B)p(B)dw\\&=\int N(w,1)N(0,1)dw\\&\propto \int exp(-\frac{(x-w)^2}{2}) exp(-\frac{x^2}{2})dw\\& \propto exp(-\frac{x^2}{4}) \end{aligned} p(A)=∫p(A∣B)p(B)dw=∫N(w,1)N(0,1)dw∝∫exp(−2(x−w)2)exp(−2x2)dw∝exp(−4x2)