首先考虑两类问题,看一个一维的两类概率分布:
其中,(a)中的两类是完全可分的;(b)是完全不可分的。
基于类的概率密度函数的可分性判据
可用两类概率密度函数的重叠程度来度量可分性,构造基于类概率密度的可分性判据,重叠程度是指两个类概率密度函数相似的程度。基于类概率密度函数构造可分性判据 J p J_p Jp 时, J p J_p Jp 应当满足:
(1)
J
p
>
0
J_p>0
Jp>0;
(2)当两类概率密度函数完全不重叠时,
J
p
=
m
a
x
J_p=max
Jp=max 达到最大;
(3)当两类概率密度函数完全重叠时,
J
p
=
0
J_p=0
Jp=0 达到最小;
(4)相对于两个概率密度函数具有 对称性。
几个常用判据如下所示:
1. Bhattacharyya判据( J B J_B JB)
B—判据: J B = − l n { ∫ Ω [ p ( x ⃗ ∣ w 1 ) ⋅ p ( x ⃗ ∣ w 2 ) ] 1 / 2 d x ⃗ } \displaystyle J_B=-ln\{\int_\Omega[p(\vec x|w_1)\cdot p(\vec x|w_2)]^{1/2}d\vec x\} JB=−ln{∫Ω[p(x∣w1)⋅p(x∣w2)]1/2dx},其中, p ( x ⃗ ∣ w i ) p(\vec x|w_i) p(x∣wi) 为第 i 类的概率密度函数, Ω \Omega Ω 表示特征空间;B-判据满足条件(1)、(4);
在最小误判概率准则下,误判概率有: P 0 ( e ) ≤ [ P ( w 1 ) ⋅ P ( w 2 ) ] 1 / 2 ] ⋅ e − J B \displaystyle P_0(e)\le[P(w_1)\cdot P(w_2)]^{1/2}]\cdot e^{-J_B} P0(e)≤[P(w1)⋅P(w2)]1/2]⋅e−JB
2.Chernoff判据( J C J_C JC)
C—判据: J C = − l n { ∫ Ω p ( x ⃗ ∣ w 1 ) s ⋅ p ( x ⃗ ∣ w 2 ) 1 − s d x ⃗ } = d e f J C ( s ; x 1 , x 2 , ⋯ , x n ) = d e f J C ( w 1 , w 2 ; s ) = d e f J C ( s ) \displaystyle J_C=-ln\{\int_\Omega{p(\vec x|w_1)}^s\cdot {p(\vec x|w_2)}^{1-s}d\vec x\}\stackrel{def}{=}J_C(s;x_1,x_2,\cdots,x_n)\stackrel{def}{=}J_C(w_1,w_2;s)\stackrel{def}{=}J_C(s) JC=−ln{∫Ωp(x∣w1)s⋅p(x∣w2)1−sdx}=defJC(s;x1,x2,⋯,xn)=defJC(w1,w2;s)=defJC(s),其中 0 < s < 1 0<s<1 0<s<1; J C J_C JC 具有以下良好的性质:
(1)
∀
0
<
s
<
1
,
J
C
≥
0
;
\forall \;0<s<1,\;J_C\ge0;
∀0<s<1,JC≥0;
(2)
∀
0
<
s
<
1
,
J
C
=
0
⟺
p
(
x
⃗
∣
w
1
)
=
p
(
x
⃗
∣
w
2
)
;
\forall \;0<s<1,\;J_C=0\Longleftrightarrow p(\vec x|w_1)=p(\vec x|w_2);
∀0<s<1,JC=0⟺p(x∣w1)=p(x∣w2);
(3)当参数
s
s
s 与
1
−
s
1-s
1−s 互调时,具有对称性:
J
C
(
w
1
,
w
2
;
s
)
=
J
C
(
w
1
,
w
2
;
1
−
s
)
;
J_C(w_1,w_2;s)=J_C(w_1,w_2;1-s);
JC(w1,w2;s)=JC(w1,w2;1−s);
(4)当
x
⃗
\vec x
x 的各个分量
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn 互相独立时,有可加性:
J
C
(
s
;
x
⃗
)
=
∑
l
=
1
n
J
C
(
s
;
x
l
)
;
\displaystyle J_C(s;\vec x)=\sum^n_{l=1}J_C(s;x_l);
JC(s;x)=l=1∑nJC(s;xl);
(5)当
x
⃗
\vec x
x 的各个分量
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn 互相独立时,有:
J
C
(
s
;
x
1
,
x
2
,
⋯
,
x
k
−
1
)
≤
J
C
(
s
;
x
1
,
x
2
,
⋯
,
x
k
−
1
,
x
k
)
,
k
≤
n
;
J_C(s;x_1,x_2,\cdots,x_{k-1})\le J_C(s;x_1,x_2,\cdots,x_{k-1},x_k),k\le n;
JC(s;x1,x2,⋯,xk−1)≤JC(s;x1,x2,⋯,xk−1,xk),k≤n;
(6)其最小误判概率为:
P
0
(
e
)
≤
P
(
w
1
)
s
⋅
P
(
w
2
)
1
−
s
⋅
e
J
C
(
w
1
,
w
2
;
s
)
\displaystyle P_0(e)\le {P(w_1)}^s\cdot {P(w_2)}^{1-s}\cdot e^{J_C(w_1,w_2;s)}
P0(e)≤P(w1)s⋅P(w2)1−s⋅eJC(w1,w2;s),其中
0
<
s
<
1
0<s<1
0<s<1;
实际上, J C = − l n { ∫ Ω p ( x ⃗ ∣ w 1 ) s ⋅ p ( x ⃗ ∣ w 2 ) 1 − s d x ⃗ } = − l n { ∫ Ω [ p ( x ⃗ ∣ w 1 ) p ( x ⃗ ∣ w 2 ) ] s ⋅ p ( x ⃗ ∣ w 2 ) d x ⃗ } \displaystyle J_C=-ln\{\int_\Omega{p(\vec x|w_1)}^s\cdot {p(\vec x|w_2)}^{1-s}d\vec x\}=-ln\{\int_\Omega[\frac{p(\vec x|w_1)}{p(\vec x|w_2)}]^s\cdot p(\vec x|w_2)d\vec x\} JC=−ln{∫Ωp(x∣w1)s⋅p(x∣w2)1−sdx}=−ln{∫Ω[p(x∣w2)p(x∣w1)]s⋅p(x∣w2)dx}。这可以启发了我们运用两个概率密度的比或差来描述两个概密重迭或相似的程度,引出散度。
3.散度( J D J_D JD,Divergence)
w
i
w_i
wi 类对
w
j
w_j
wj 类的平均可分性信息为:
I
i
j
(
x
⃗
)
=
E
[
l
n
p
(
x
⃗
∣
w
i
)
p
(
x
⃗
∣
w
j
)
]
=
∫
Ω
p
(
x
⃗
∣
w
i
)
⋅
l
n
p
(
x
⃗
∣
w
i
)
p
(
x
⃗
∣
w
j
)
d
x
⃗
\displaystyle I_{ij}(\vec x)=E[ln\frac{p(\vec x|w_i)}{p(\vec x|w_j)}]=\int_\Omega p(\vec x|w_i)\cdot ln\frac{p(\vec x|w_i)}{p(\vec x|w_j)}d\vec x
Iij(x)=E[lnp(x∣wj)p(x∣wi)]=∫Ωp(x∣wi)⋅lnp(x∣wj)p(x∣wi)dx;
而
w
j
w_j
wj 类对
w
i
w_i
wi 类的平均可分性信息为:
I
j
i
(
x
⃗
)
=
E
[
l
n
p
(
x
⃗
∣
w
j
)
p
(
x
⃗
∣
w
i
)
]
=
∫
Ω
p
(
x
⃗
∣
w
j
)
⋅
l
n
p
(
x
⃗
∣
w
j
)
p
(
x
⃗
∣
w
i
)
d
x
⃗
\displaystyle I_{ji}(\vec x)=E[ln\frac{p(\vec x|w_j)}{p(\vec x|w_i)}]=\int_\Omega p(\vec x|w_j)\cdot ln\frac{p(\vec x|w_j)}{p(\vec x|w_i)}d\vec x
Iji(x)=E[lnp(x∣wi)p(x∣wj)]=∫Ωp(x∣wj)⋅lnp(x∣wi)p(x∣wj)dx;
其中, p ( x ⃗ ∣ w i ) p ( x ⃗ ∣ w j ) \displaystyle \frac{p(\vec x|w_i)}{p(\vec x|w_j)} p(x∣wj)p(x∣wi) 与 p ( x ⃗ ∣ w j ) p ( x ⃗ ∣ w i ) \displaystyle \frac{p(\vec x|w_j)}{p(\vec x|w_i)} p(x∣wi)p(x∣wj) 为对应的似然比;
对于两类总的平均可分性信息称为散度,为两类平均可分性信息之和:
J
D
=
I
i
j
(
x
⃗
)
+
I
j
i
(
x
⃗
)
=
∫
Ω
[
p
(
x
⃗
∣
w
i
)
−
p
(
x
⃗
∣
w
j
)
]
⋅
l
n
p
(
x
⃗
∣
w
j
)
p
(
x
⃗
∣
w
i
)
d
x
⃗
=
d
e
f
J
D
(
w
i
,
w
j
)
=
d
e
f
J
D
(
x
1
,
x
2
,
⋯
,
x
n
)
\displaystyle J_D=I_{ij}(\vec x)+I_{ji}(\vec x)=\int_\Omega[p(\vec x|w_i)-p(\vec x|w_j)]\cdot ln\frac{p(\vec x|w_j)}{p(\vec x|w_i)}d\vec x\stackrel{def}{=}J_D(w_i,w_j)\stackrel{def}{=}J_D(x_1,x_2,\cdots,x_n)
JD=Iij(x)+Iji(x)=∫Ω[p(x∣wi)−p(x∣wj)]⋅lnp(x∣wi)p(x∣wj)dx=defJD(wi,wj)=defJD(x1,x2,⋯,xn),
散度具有如下性质:
(1)
J
D
≥
0
;
J_D\ge0;
JD≥0;
(2)对称性:
J
D
(
w
i
,
w
j
)
=
J
D
(
w
j
,
w
i
)
;
J_D(w_i,w_j)=J_D(w_j,w_i);
JD(wi,wj)=JD(wj,wi);
(3)
J
D
=
0
⟺
p
(
x
⃗
∣
w
i
)
=
p
(
x
⃗
∣
w
j
)
;
J_D=0\Longleftrightarrow p(\vec x|w_i)=p(\vec x|w_j);
JD=0⟺p(x∣wi)=p(x∣wj);
(4)当
x
⃗
\vec x
x 的各个分量
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn 互相独立时,有可加性:
J
D
(
x
1
,
x
2
,
⋯
,
x
k
)
=
∑
j
=
1
k
J
D
(
x
j
)
\displaystyle J_D(x_1,x_2,\cdots,x_k)=\sum^k_{j=1}J_D(x_j)
JD(x1,x2,⋯,xk)=j=1∑kJD(xj),其中
k
≤
n
;
k\le n;
k≤n;
(5)当
x
⃗
\vec x
x 的各个分量
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn 互相独立时,对特征数目单调不减,即:
J
D
(
x
1
,
x
2
,
⋯
,
x
k
−
1
)
≤
J
D
(
x
1
,
x
2
,
⋯
,
x
k
−
1
,
x
k
)
,
k
≤
n
;
J_D(x_1,x_2,\cdots,x_{k-1})\le J_D(x_1,x_2,\cdots,x_{k-1},x_k),k\le n;
JD(x1,x2,⋯,xk−1)≤JD(x1,x2,⋯,xk−1,xk),k≤n;
一般情况下,散度与误分概率(或其上下界)之间的直接解析关系很难得到,但实验证明它们之间存在着单调关系。例如两类都是正态分布,且有相同的协方差阵时,最小误分概率 P 0 ( e ) P_0(e) P0(e) 是 J D J_D JD 的单调减函数: P 0 ( e ) = ∫ 1 2 J D ∞ 1 2 π e x p ( − y 2 2 ) d y \displaystyle P_0(e)=\int^{\infty}_{\frac{1}{2}\sqrt{J_D}}\frac{1}{\sqrt{2\pi}}exp(-\frac{y^2}{2})dy P0(e)=∫21JD∞2π1exp(−2y2)dy。
多类问题时的判据
由 J B 、 J C 、 J D J_B、J_C、J_D JB、JC、JD 的定义式结构以及它们与误分概率的关系可以知道,所选取的特征矢量应使所对应的 J B 、 J C 、 J D J_B、J_C、J_D JB、JC、JD 尽量大,这样可分性就较好。
对于多类问题,如当总共有 c 类时,可采用平均 B—判据、C—判据、D—判据,如下:
J
ˉ
B
=
∑
i
=
1
c
∑
j
=
i
+
1
c
P
(
w
i
)
P
(
w
j
)
J
B
(
w
i
,
w
j
)
\displaystyle\bar J_B=\sum^c_{i=1}\sum^c_{j=i+1}P(w_i)P(w_j)J_B(w_i,w_j)
JˉB=i=1∑cj=i+1∑cP(wi)P(wj)JB(wi,wj)
J ˉ C = ∑ i = 1 c ∑ j = i + 1 c P ( w i ) P ( w j ) J C ( w i , w j ) \displaystyle\bar J_C=\sum^c_{i=1}\sum^c_{j=i+1}P(w_i)P(w_j)J_C(w_i,w_j) JˉC=i=1∑cj=i+1∑cP(wi)P(wj)JC(wi,wj)
J ˉ D = ∑ i = 1 c ∑ j = i + 1 c P ( w i ) P ( w j ) J D ( w i , w j ) \displaystyle\bar J_D=\sum^c_{i=1}\sum^c_{j=i+1}P(w_i)P(w_j)J_D(w_i,w_j) JˉD=i=1∑cj=i+1∑cP(wi)P(wj)JD(wi,wj)
大盖小问题
在特征空间中,若有某两类间的 J B 、 J C 或 J D J_B、J_C\,或\,J_D JB、JC或JD 很大,则会使平均判据变大,这样就掩盖了某些类对的判据值较小的情况存在,从而可能降低总的分类正确率,即所谓的大盖小问题。为改善这种情况,可对每个类对的判据采用变换的方法,使对小的判据较敏感。
例如,对 J D J_D JD,两类问题可采用变换: J ~ D ( w i , w j ) = 1 − e x p { − J D ( w i , w j ) 8 } \displaystyle\tilde J_D(w_i,w_j)=1-exp\{-\frac{J_D(w_i,w_j)}{8}\} J~D(wi,wj)=1−exp{−8JD(wi,wj)}。这样,当 w i w_i wi 和 w j w_j wj 两类模式相距很远时, J D ( w i , w j ) J_D(w_i,w_j) JD(wi,wj) 变得很大,但 J ~ D ( w i , w j ) \tilde J_D(w_i,w_j) J~D(wi,wj) 也只能接近于 1。但对于散度 J D ( w i , w j ) J_D(w_i,w_j) JD(wi,wj) 小的情况, J ~ D ( w i , w j ) \tilde J_D(w_i,w_j) J~D(wi,wj) 又会变得较敏感;
而对多类问题时,将总的平均(变换)判据改为: J ~ D = ∑ i = 1 c ∑ j = i + 1 c P ( w i ) P ( w j ) J ~ D ( w i , w j ) \displaystyle\tilde J_D=\sum^c_{i=1}\sum^c_{j=i+1}P(w_i)P(w_j)\tilde J_D(w_i,w_j) J~D=i=1∑cj=i+1∑cP(wi)P(wj)J~D(wi,wj)。
同样的,对 J B J_B JB,两类问题时,可变换为: J ~ B ( w i , w j ) = [ 2 ( 1 − e x p { − J B ( ( w i , w j ) } ) ] 1 / 2 \displaystyle\tilde J_B(w_i,w_j)=[2(1-exp\{-J_B((w_i,w_j)\})]^{1/2} J~B(wi,wj)=[2(1−exp{−JB((wi,wj)})]1/2;且 0 ≤ J ~ B ( w i , w j ) ≤ 2 \displaystyle 0\le\tilde J_B(w_i,w_j)\le\sqrt{2} 0≤J~B(wi,wj)≤2;
而对多类问题时: J ~ B = ∑ i = 1 c ∑ j = i + 1 c P ( w i ) P ( w j ) J ~ B ( w i , w j ) \displaystyle\tilde J_B=\sum^c_{i=1}\sum^c_{j=i+1}P(w_i)P(w_j)\tilde J_B(w_i,w_j) J~B=i=1∑cj=i+1∑cP(wi)P(wj)J~B(wi,wj)。