文章目录
CH5 线性判别分析(LDA)
5.1 LDA原理
将高维的样本数据投影到最佳判别向量空间,以达到特征提取(维数约简)的效果,投影后保证样本数据在新的子空间有最大类间距和最小类内距离,即在该子空间中具有最佳的可分离性
5.2 中心思想
投影后类内方差最小,类间方差最大
投影后希望每一种类别的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能大
5.3 证明:什么是LDA
给定任意的样本
x
∈
R
d
x \in R^d
x∈Rd
y
=
T
(
x
)
=
w
T
x
y = T(x) = w^Tx
y=T(x)=wTx
其中
w
∈
R
d
w\in R^d
w∈Rd为待定向量
二分类问题: 设
(
X
,
Y
)
(X,Y)
(X,Y)是一个两类的分类问题,记属于第一第二类的样本集合分别为
X
1
,
X
2
X_1,X_2
X1,X2,记
μ
i
\mu_i
μi为
X
i
(
i
=
1
,
2
)
X_i(i=1,2)
Xi(i=1,2)类的均值,即
μ
i
=
1
N
i
∑
x
∈
X
i
x
\mu_i = \frac{1}{N_i}\sum_{x\in X_i}x
μi=Ni1x∈Xi∑x
μ
i
\mu_i
μi经过变换后为
z
i
‾
\overline{z_i}
zi(降维下的均值点)
z
i
‾
=
T
(
μ
i
)
=
w
T
μ
i
=
w
T
1
N
i
∑
x
∈
X
i
x
=
1
N
i
w
T
x
\overline{z_i} = T(\mu_i)= w^T\mu_i = w^T\frac{1}{N_i}\sum_{x\in X_i}x = \frac{1}{N_i}w^Tx
zi=T(μi)=wTμi=wTNi1x∈Xi∑x=Ni1wTx
记 Z i = { T ( x ) ∣ x ∈ X i } Z_i = \{T(x)|x\in X_i\} Zi={T(x)∣x∈Xi},根据LDA的基本思想,我们希望:
-
z
1
‾
\overline{z_1}
z1和
z
2
‾
\overline{z_2}
z2离的越远越好
- 类间离散度
J b = ∣ ∣ z 1 ‾ − z 2 ‾ ∣ ∣ \boxed{J_b = ||\overline{z_1}-\overline{z_2}||} Jb=∣∣z1−z2∣∣
- 类间离散度
-
Z
i
Z_i
Zi中的元素越集中在
z
i
‾
\overline{z_i}
zi附近越好
- 类内离散度
J w = s 1 2 + s 2 2 \boxed{J_w = s_1^2 + s_2^2} Jw=s12+s22,其中 s i 2 = ∑ z ∈ Z i ( z − z i ‾ ) 2 s_i^2 = \sum_{z\in Z_i}(z-\overline{z_i})^2 si2=∑z∈Zi(z−zi)2(方差)
- 类内离散度
5.3.1 线性判别目标函数
a r g m a x J ( w ) = J b J w = ∣ z 1 ‾ − z 2 ‾ ∣ 2 s 1 2 + s 2 2 arg\,maxJ(w) = \frac{J_b}{J_w} = \frac{|\overline{z_1}-\overline{z_2}|^2}{s_1^2+s_2^2} argmaxJ(w)=JwJb=s12+s22∣z1−z2∣2
注意:
目标函数要实现最大类间距离和最小类内距离
目标函数J(w)中的比值在一定程度上可以看作是信噪比
5.3.1.1 目标函数简化
J b = ∣ z 1 ‾ − z 2 ‾ ∣ 2 = ∣ w T ( μ 1 − μ 2 ) 2 ∣ ⇒ w T ( μ 1 − μ 2 ) ( μ 1 T − μ 2 T ) w ≜ w T S b w J_b = |\overline{z_1}-\overline{z_2}|^2 = |w^T(\mu_1-\mu_2)^2|\Rightarrow w^T(\mu_1-\mu_2)(\mu_1^T-\mu_2^T)w \triangleq \boxed{w^TS_bw} Jb=∣z1−z2∣2=∣wT(μ1−μ2)2∣⇒wT(μ1−μ2)(μ1T−μ2T)w≜wTSbw
≜ \triangleq ≜ 表示定义为
J
w
=
s
1
2
+
s
2
2
=
∑
i
=
1
2
∑
z
∈
Z
i
(
z
−
w
T
μ
i
)
2
=
∑
i
=
1
2
∑
x
∈
X
i
w
T
(
x
−
μ
i
)
(
x
−
μ
i
)
T
w
J_w = s_1^2 + s_2^2 = \sum^2_{i=1}{\sum_{z\in Z_i}{(z-w^T\mu_i)^2} = \sum^2_{i=1}\sum_{x\in X_i}w^T(x-\mu_i)(x-\mu_i)^Tw}
Jw=s12+s22=i=1∑2z∈Zi∑(z−wTμi)2=i=1∑2x∈Xi∑wT(x−μi)(x−μi)Tw
=
w
T
(
∑
i
=
1
2
∑
x
∈
X
i
(
x
−
μ
i
)
(
x
−
μ
i
)
T
)
w
≜
w
T
S
w
w
= w^T(\sum^2_{i=1}\sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T)w \triangleq \boxed{w^TS_ww}
=wT(i=1∑2x∈Xi∑(x−μi)(x−μi)T)w≜wTSww
5.3.1.2 目标函数优化
上述问题的w并不是唯一的,倘若w对应J(w)的极大值点,则a*w仍然可以达到J(w)的极大值点
问题转化为:
a
r
g
m
a
x
w
J
b
(
w
)
=
w
T
S
b
w
,使得
w
T
S
w
w
=
1
arg\,max_wJ_b(w) = w^TS_bw,使得\,w^TS_ww = 1
argmaxwJb(w)=wTSbw,使得wTSww=1
构造拉格朗日函数为
L
(
w
,
λ
)
=
w
T
S
b
w
−
λ
(
w
T
S
w
w
−
1
)
\mathcal{L}(w,\lambda) = w^TS_bw - \lambda(w^TS_ww-1)
L(w,λ)=wTSbw−λ(wTSww−1)
对拉格朗日函数求偏导并设其偏导数为零,得
∂
L
∂
w
=
2
S
b
w
−
2
λ
S
w
w
=
0
\frac{\partial\mathcal{L}}{\partial w} = 2S_bw-2\lambda S_ww = 0
∂w∂L=2Sbw−2λSww=0
如果
S
w
S_w
Sw可逆,那么
S
w
−
1
S
b
w
=
λ
w
\boxed{S_w^{-1}S_bw = \lambda w}
Sw−1Sbw=λw
5.3.2 结论
最优 w w w 就是 S w − 1 S b S^{-1}_wS_b Sw−1Sb 的特征向量,而这个公式也称为Fisher线性判别