1. 后验概率和结构风险的定义
1.1 后验概率定义
后验概率是从贝叶斯公式而来,贝叶斯公式如下:
P
(
Y
∣
X
)
=
P
(
X
∣
Y
)
P
(
Y
)
P
(
X
)
P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}
P(Y∣X)=P(X)P(X∣Y)P(Y)
以分类问题来理解该公式,X代表观测到的特征样本,Y表示类别。特征是表象,类别是本质,
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)即后验概率,表示通过表象X归纳出其本质为Y的可信度有多高;
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)为似然率,表示从本质Y出发,生成各种表象X的可能性;
P
(
X
)
,
P
(
Y
)
P(X),P(Y)
P(X),P(Y)则是表象和本质的先验概率。所谓最大后验概率(Maximum A Posterior, MAP),直译为『最大的一个后验概率』,顾名思义就是通过观察到的表象X,可以归纳为很多Y,将最可信的那个Y作为X的真正本质。
1.2 后验概率的哲学意义
该公式包含深刻的哲学含义,上文已经从表象和本质的角度来阐述该公式。我们还可以从因果的角度来阐述该公式,X为果,Y为因,今天的果是由过去的因导致,后验概率甚至可以统计归纳出导致该结果的各种原因的可能性,所谓有果必有因。后验概率最大的那个是因,其它的是缘,所谓万事万物皆由因缘和合而生,这正是佛家的世界观,世界的一切色相皆可由一套概率模型表述,通过色相可归纳出世界的本质,即量子力学揭示的真空中量子涨落的概率本质,色即是空。先哲们通过观察色相,归纳出了这一宇宙的终极真理,用后验概率表示即为:
P
(
空
∣
色
)
=
1
P(空|色)=1
P(空∣色)=1
如此思考很有意思,中国传统文化中,佛家则是贝叶斯派,道家则是频率派。佛家高僧往往见多识广,从大量样本中悟出世界的本源。而道家则往往闭门推演,从太极本源不断往外推算,进而生成万物,属于概率生成模型,可以用似然率来表示:
P
(
卦
象
∣
太
极
)
=
{
×
×
⋯
×
×
P(卦象|太极)= \left\{ \begin{aligned} & \times\times \\ & \cdots \\ & \times\times \end{aligned} \right.
P(卦象∣太极)=⎩⎪⎨⎪⎧××⋯××
1.3 后验概率的现实意义
回到贝叶斯公式,我们可以看到由观察到的表象去推断其背后的本质
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X),其等比于由本质生成表象的概率
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)乘以该本质本身的概率
P
(
Y
)
P(Y)
P(Y)(贝叶斯公式的分子部分,对于给定的X,分母是确定的)。这有广泛的现实意义,即我们日常生活中判断一件事情产生的原因,即使某个原因导致该结果的概率非常大(
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)接近1),但该原因本身发生的概率非常小时(
P
(
Y
)
P(Y)
P(Y)接近0),我们往往也不会对该原因置信。
举个例子,彗星一旦撞击火星,毁灭火星的概率非常大,但相比火星人发生核战争的概率,彗星撞火星的概率可以忽略不计,所以导致如今火星文明消失的原因更大可能是当年火星人自己的核战争,而不是彗星。人类要以邻为鉴啊。
再举个更容易理解的例子,我们经常听到办公楼下的电瓶车发出报警声,但却很少有人在听到报警声后真的去检查电瓶车是否被撬。虽然被撬时报警的概率几乎为1,但被撬本身的概率非常小,所以往往就不置信了。实际确实如此,电瓶车报警,更有可能是被路过的人碰到了,虽然被轻轻碰到就报警的概率不太大,但相比于被撬,被碰本身的概率大多了。
1.4 结构风险定义
关于结构风险的介绍,在『泛化误差上界』一文中已经进行了详细介绍,这里仅作简介。结构风险即损失函数在X和Y的联合概率分布下的期望,即:
R
e
x
p
(
f
)
=
E
X
×
Y
[
L
(
y
,
f
(
x
)
)
]
R_{exp}(f)=E_{X\times Y}[L(y,f(x))]
Rexp(f)=EX×Y[L(y,f(x))]
后验概率最大实际上等价与结构风险最小,关于其证明如下。
2. 后验概率最大与结构风险最小的等价性证明
后验概率最大,即对某个特征样本x,其类别应该判定为后验概率最大的那个y,用数学语言表述即为:
y
=
f
(
x
)
=
arg max
c
k
P
(
Y
=
c
k
∣
X
=
x
)
,
k
=
1
,
2
,
⋯
,
K
y=f(x)=\argmax_{c_k}{P(Y=c_k|X=x)},\quad k=1,2,\cdots,K
y=f(x)=ckargmaxP(Y=ck∣X=x),k=1,2,⋯,K
若对任一
x
i
∈
X
,
i
=
1
,
2
,
⋯
,
N
x_i\in X,\quad i=1,2,\cdots,N
xi∈X,i=1,2,⋯,N,都采用后验概率最大进行判决,得到
f
(
x
i
)
=
c
k
i
f(x_i)=c_{ki}
f(xi)=cki,则:
∑
i
=
1
N
P
(
Y
=
c
k
i
∣
X
=
x
i
)
(1)
\sum_{i=1}^{N}P(Y=c_{ki}|X=x_i) \tag{1}
i=1∑NP(Y=cki∣X=xi)(1)
也是最大的。
对式(1)除以样本个数N可变形为期望形式:
E
X
[
P
(
Y
=
c
k
∣
X
=
x
)
]
(2)
E_X[P(Y=c_k|X=x)] \tag{2}
EX[P(Y=ck∣X=x)](2)
令损失函数为:
L
(
Y
=
c
k
,
f
(
X
=
x
)
)
=
{
0
,
f
(
X
=
x
)
≠
c
k
−
1
,
f
(
X
=
x
)
=
c
k
L(Y=c_k,f(X=x))= \left\{ \begin{aligned} 0,\quad f(X=x)\neq c_k \\ -1,\quad f(X=x)=c_k \end{aligned} \right.
L(Y=ck,f(X=x))={0,f(X=x)=ck−1,f(X=x)=ck
则:
P
(
Y
=
c
k
∣
X
=
x
)
=
−
∑
j
=
1
K
P
(
Y
=
c
j
∣
X
=
x
)
L
(
Y
=
c
j
,
f
(
X
=
x
)
)
P(Y=c_k|X=x)=-\sum_{j=1}^{K}{P(Y=c_j|X=x)L(Y=c_j,f(X=x))}
P(Y=ck∣X=x)=−j=1∑KP(Y=cj∣X=x)L(Y=cj,f(X=x))
将其代入式(2)可得:
E
X
[
P
(
Y
=
c
k
∣
X
=
x
)
]
=
E
X
[
−
∑
j
=
1
K
P
(
Y
=
c
j
∣
X
=
x
)
L
(
Y
=
c
j
,
f
(
X
=
x
)
)
]
=
−
∑
i
=
1
N
[
P
(
X
=
x
i
)
∑
j
=
1
K
P
(
Y
=
c
j
∣
X
=
x
)
L
(
Y
=
c
j
,
f
(
X
=
x
)
)
]
=
−
∑
i
=
1
N
∑
j
=
1
K
[
P
(
X
=
x
i
)
P
(
Y
=
c
j
∣
X
=
x
i
)
L
(
Y
=
c
j
,
f
(
X
=
x
i
)
)
]
=
−
E
X
×
Y
[
L
(
Y
,
f
(
X
)
)
]
=
−
R
e
x
p
(
f
)
(3)
\begin{aligned} E_X[P(Y=c_k|X=x)] &= E_X\left[-\sum_{j=1}^{K}{P(Y=c_j|X=x)L(Y=c_j,f(X=x))}\right] \\ &= -\sum_{i=1}^{N}{\left[P(X=x_i)\sum_{j=1}^{K}{P(Y=c_j|X=x)L(Y=c_j,f(X=x))}\right]} \\ &= -\sum_{i=1}^{N}{\sum_{j=1}^{K}{\left[P(X=x_i)P(Y=c_j|X=x_i)L(Y=c_j,f(X=x_i))\right]}} \\ &= -E_{X\times Y}\left[L(Y,f(X))\right] \\ &= -R_{exp}(f) \end{aligned} \tag{3}
EX[P(Y=ck∣X=x)]=EX[−j=1∑KP(Y=cj∣X=x)L(Y=cj,f(X=x))]=−i=1∑N[P(X=xi)j=1∑KP(Y=cj∣X=x)L(Y=cj,f(X=x))]=−i=1∑Nj=1∑K[P(X=xi)P(Y=cj∣X=xi)L(Y=cj,f(X=xi))]=−EX×Y[L(Y,f(X))]=−Rexp(f)(3)
由此可知,后验概率最大即上式(3)最大,也即
R
e
x
p
(
f
)
R_{exp}(f)
Rexp(f)最小。
后验概率最大等价于结构风险最小得证。