CH5 线性判别分析(LDA)

CH5 线性判别分析(LDA)

在这里插入图片描述

5.1 LDA原理

将高维的样本数据投影到最佳判别向量空间,以达到特征提取(维数约简)的效果,投影后保证样本数据在新的子空间有最大类间距和最小类内距离,即在该子空间中具有最佳的可分离性

5.2 中心思想

投影后类内方差最小,类间方差最大

投影后希望每一种类别的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能大

5.3 证明:什么是LDA

给定任意的样本 x ∈ R d x \in R^d xRd
y = T ( x ) = w T x y = T(x) = w^Tx y=T(x)=wTx
其中 w ∈ R d w\in R^d wRd为待定向量

在这里插入图片描述

二分类问题: ( X , Y ) (X,Y) (X,Y)是一个两类的分类问题,记属于第一第二类的样本集合分别为 X 1 , X 2 X_1,X_2 X1,X2,记 μ i \mu_i μi X i ( i = 1 , 2 ) X_i(i=1,2) Xi(i=1,2)类的均值,即
μ i = 1 N i ∑ x ∈ X i x \mu_i = \frac{1}{N_i}\sum_{x\in X_i}x μi=Ni1xXix
μ i \mu_i μi经过变换后为 z i ‾ \overline{z_i} zi(降维下的均值点)
z i ‾ = T ( μ i ) = w T μ i = w T 1 N i ∑ x ∈ X i x = 1 N i w T x \overline{z_i} = T(\mu_i)= w^T\mu_i = w^T\frac{1}{N_i}\sum_{x\in X_i}x = \frac{1}{N_i}w^Tx zi=T(μi)=wTμi=wTNi1xXix=Ni1wTx

Z i = { T ( x ) ∣ x ∈ X i } Z_i = \{T(x)|x\in X_i\} Zi={T(x)xXi},根据LDA的基本思想,我们希望:

  • z 1 ‾ \overline{z_1} z1 z 2 ‾ \overline{z_2} z2离的越远越好
    • 类间离散度
      J b = ∣ ∣ z 1 ‾ − z 2 ‾ ∣ ∣ \boxed{J_b = ||\overline{z_1}-\overline{z_2}||} Jb=∣∣z1z2∣∣
  • Z i Z_i Zi中的元素越集中在 z i ‾ \overline{z_i} zi附近越好
    • 类内离散度
      J w = s 1 2 + s 2 2 \boxed{J_w = s_1^2 + s_2^2} Jw=s12+s22,其中 s i 2 = ∑ z ∈ Z i ( z − z i ‾ ) 2 s_i^2 = \sum_{z\in Z_i}(z-\overline{z_i})^2 si2=zZi(zzi)2(方差)

5.3.1 线性判别目标函数

a r g   m a x J ( w ) = J b J w = ∣ z 1 ‾ − z 2 ‾ ∣ 2 s 1 2 + s 2 2 arg\,maxJ(w) = \frac{J_b}{J_w} = \frac{|\overline{z_1}-\overline{z_2}|^2}{s_1^2+s_2^2} argmaxJ(w)=JwJb=s12+s22z1z22

注意:
目标函数要实现最大类间距离和最小类内距离
目标函数J(w)中的比值在一定程度上可以看作是信噪比

5.3.1.1 目标函数简化

J b = ∣ z 1 ‾ − z 2 ‾ ∣ 2 = ∣ w T ( μ 1 − μ 2 ) 2 ∣ ⇒ w T ( μ 1 − μ 2 ) ( μ 1 T − μ 2 T ) w ≜ w T S b w J_b = |\overline{z_1}-\overline{z_2}|^2 = |w^T(\mu_1-\mu_2)^2|\Rightarrow w^T(\mu_1-\mu_2)(\mu_1^T-\mu_2^T)w \triangleq \boxed{w^TS_bw} Jb=z1z22=wT(μ1μ2)2wT(μ1μ2)(μ1Tμ2T)wwTSbw

≜ \triangleq 表示定义为

J w = s 1 2 + s 2 2 = ∑ i = 1 2 ∑ z ∈ Z i ( z − w T μ i ) 2 = ∑ i = 1 2 ∑ x ∈ X i w T ( x − μ i ) ( x − μ i ) T w J_w = s_1^2 + s_2^2 = \sum^2_{i=1}{\sum_{z\in Z_i}{(z-w^T\mu_i)^2} = \sum^2_{i=1}\sum_{x\in X_i}w^T(x-\mu_i)(x-\mu_i)^Tw} Jw=s12+s22=i=12zZi(zwTμi)2=i=12xXiwT(xμi)(xμi)Tw
= w T ( ∑ i = 1 2 ∑ x ∈ X i ( x − μ i ) ( x − μ i ) T ) w ≜ w T S w w = w^T(\sum^2_{i=1}\sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T)w \triangleq \boxed{w^TS_ww} =wT(i=12xXi(xμi)(xμi)T)wwTSww

5.3.1.2 目标函数优化

上述问题的w并不是唯一的,倘若w对应J(w)的极大值点,则a*w仍然可以达到J(w)的极大值点

问题转化为:
a r g   m a x w J b ( w ) = w T S b w ,使得   w T S w w = 1 arg\,max_wJ_b(w) = w^TS_bw,使得\,w^TS_ww = 1 argmaxwJb(w)=wTSbw,使得wTSww=1

构造拉格朗日函数为
L ( w , λ ) = w T S b w − λ ( w T S w w − 1 ) \mathcal{L}(w,\lambda) = w^TS_bw - \lambda(w^TS_ww-1) L(w,λ)=wTSbwλ(wTSww1)

对拉格朗日函数求偏导并设其偏导数为零,得
∂ L ∂ w = 2 S b w − 2 λ S w w = 0 \frac{\partial\mathcal{L}}{\partial w} = 2S_bw-2\lambda S_ww = 0 wL=2Sbw2λSww=0

如果 S w S_w Sw可逆,那么
S w − 1 S b w = λ w \boxed{S_w^{-1}S_bw = \lambda w} Sw1Sbw=λw

5.3.2 结论

最优 w w w 就是 S w − 1 S b S^{-1}_wS_b Sw1Sb 的特征向量,而这个公式也称为Fisher线性判别

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值