线性模型(二)Fisher线性判别分析

线性判别分析,Linear Discriminant Analysis,一种用于二分类的很经典的线性学习方法,1936年由Fisher 提出,so也称为Fisher判别分析。它和PCA一样,也是一种降维方法。
英国大统计学家Fisher,“a genius who almost single-handedly created the foundations for modern statistical science”,“the single most important figure in 20th century statistics”.

LDA方法属于模式识别领域。
模式识别系统的基本构成:数据采集和预处理,特征选取,分类器设计,训练测试,计算分类结果,复杂度分析。
其中,选取特征是个技术活,如果特征过多,某些特征实际和分类结果相关性很小,就会造成过拟合,模型无法适用于新数据。不必要的特征甚至可能带来不可预知的影响。除此以外,过多的特征运算量也太大。因此,降维很必要。


(1)思想

训练阶段:通过投影进行降维,把所有带标签的训练数据点投影到一个直线(or低维超平面),使得两类数据点投影后的位置满足,类内离差最小,类间离差最大,即同类样本的投影点尽可能接近,异类样本的投影点尽可能远离

贴一张周志华西瓜书的图:
在这里插入图片描述
数据点都是二维的(2个特征),沿着虚线方向投影到那条直线,达到分离目的。所以,LDA的关键就是找这个投影方向。分界线的方程为 y = w T x y={\boldsymbol w}^T{\boldsymbol x} y=wTx,投影方向与之正交,那自然就是 w \boldsymbol w w的方向了。

测试阶段:把新数据点也投影到同一个低维超平面,根据投影点的位置判断类别。

(2)原理和推导

(不明白时结合上面的图去看)

(一)类内散布矩阵和类间散布矩阵

假设样本分两类,第0类和第1类,对应两个子集 X 0 , X 1 X_0,X_1 X0,X1,样本点总数分别是 N 0 , N 1 N_0,N_1 N0,N1

投影到的直线/低维超平面的方程是 y = w T x y=\boldsymbol w^T\boldsymbol x y=wTx

从核心思想的两个角度分别出发,建立部分的数学模型:

  1. 类间距离尽可能大

μ 0 , μ 1 \boldsymbol{\mu_0},\boldsymbol{\mu_1} μ0,μ1分别是两类样本的中心:

μ 0 = 1 N 0 ∑ x ∈ X 0 x \boldsymbol{\mu_0}=\frac{1}{N_0}\sum_{\boldsymbol x\in X_0 }\boldsymbol x μ0=N01xX0x

μ 1 = 1 N 1 ∑ x ∈ X 1 x \boldsymbol{\mu_1}=\frac{1}{N_1}\sum_{\boldsymbol x\in X_1 }\boldsymbol x μ1=N11xX1x

两个中心到直线上的投影分别为 w T μ 0 和 w T μ 1 \boldsymbol w^T\boldsymbol{\mu_0}和\boldsymbol w^T\boldsymbol{\mu_1} wTμ0wTμ1

为了使类间距离最大,则应最大化这两个投影点之间的距离:
∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 ||\boldsymbol w^T\boldsymbol{\mu_0}-\boldsymbol w^T\boldsymbol{\mu_1}||_2^2 wTμ0wTμ122

∣ ∣ w T ( μ 0 − μ 1 ) ∣ ∣ 2 2 = ||\boldsymbol w^T(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})||_2^2= wT(μ0μ1)22=

w T ( μ 0 − μ 1 ) [ w T ( μ 0 − μ 1 ) ] T = \boldsymbol w^T(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})[\boldsymbol w^T(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})]^T= wT(μ0μ1)[wT(μ0μ1)]T=

w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w = \boldsymbol w^T(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})^T\boldsymbol w= wT(μ0μ1)(μ0μ1)Tw=

w T S b w \boldsymbol w^TS_b\boldsymbol w wTSbw

其中 S b S_b Sb类间散布矩阵

S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T S_b=(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})^T Sb=(μ0μ1)(μ0μ1)T
S代表scatter(散布矩阵scatter matrix),b下标代表between, S b S_b Sb表示between class scatter。

总结:最大化类间距离等同于最大化 w T S b w \boldsymbol w^TS_b\boldsymbol w wTSb

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值