线性判别分析(Linear Discriminant Analysis,LDA)
笔记部分
二分类LDA模型
原理
给定训练样法将样例投影到一条直线上,使得:
- 同类样例的投影点尽可能接近;
- 异类样例投影点尽可能能远离。
- 在对新样本进行分类时,将其投影到该直线上,再根据投点的位置来确定样本的类别。
如下图所示:
对应到机器学习三要素中分别为:
-
模型: f ( x ) = w T x f(\mathbf x)=\mathbf w^T\mathbf x f(x)=wTx。
-
策略:经投影的类内方差尽可能小;经投影的异类样本中心尽可能远。
-
算法:拉格朗日乘子法求解 w \mathbf w w的最优闭式解。
策略——构建loss function
经投影的类内方差尽可能小
假设属于两类的试验样本数量分别是 m 0 m_0 m0和 m 1 m_1 m1,经投影的类内方差 V a r C 0 Var_{C_0} VarC0可表示为:
Σ 0 = 1 m 0 ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T \mathbf \Sigma_0=\frac{1}{m_0}\sum\limits_{\mathbf x \in X_0}(\mathbf x-\mathbf μ_0)(\mathbf x-\mathbf μ_0)^T Σ0=m01x∈X0∑(x−μ0)(x−μ0)T表示标记为类别0的原始数据的协方差, μ 0 \mathbf μ_0 μ0为标记为类别0的原始数据的均值向量。
同理:则此”经投影的类内方差尽可能小“策略需要:
w
T
Σ
0
w
+
w
T
Σ
1
w
w
T
Σ
0
w
+
w
T
Σ
1
w
wTΣ0w+wTΣ1wwTΣ0w+wTΣ1w
wTΣ0w+wTΣ1wwTΣ0w+wTΣ1w尽可能小。
经投影的异类样本中心尽可能远
用两类的均值表示经投影的异类样本中心,其距离平方为:
∣
∣
w
T
μ
0
−
w
T
μ
1
∣
∣
2
∣
∣
w
T
μ
0
−
w
T
μ
1
∣
∣
2
||wTμ0−wTμ1||2||wTμ0−wTμ1||2
∣∣wTμ0−wTμ1∣∣2∣∣wTμ0−wTμ1∣∣2
则此”经投影的异类样本中心尽可能远“策略需要:
可以让类中心之间的距离尽可能大,即
∣
∣
w
T
μ
0
−
w
T
μ
1
∣
∣
2
∣
∣
w
T
μ
0
−
w
T
μ
1
∣
∣
2
||wTμ0−wTμ1||2||wTμ0−wTμ1||2
∣∣wTμ0−wTμ1∣∣2∣∣wTμ0−wTμ1∣∣2尽可能大。
二分类线性判别的loss function
综合上述两点,由于协方差是一个矩阵,于是用将这两个值相除来得到损失函数 J J J,并最大化这个值:
其中 S b \mathbf S_b Sb为类间散度矩阵(between-class scatter matrix), S w \mathbf S_w Sw为类间散度矩阵(within-class scatter matrix)。 J J J是 S b \mathbf S_b Sb和 S w \mathbf S_w Sw的广义瑞利商。
由于 J J J的分子分母都是关于 w w w的二次项,因此其解与 w w w的长度无关(即使扩展或缩减了 w w w的长度也可以被约分),只与方向有关。又因为给定训练集后, S w S_w Sw为常量,因此可以将 w w w进行缩放,令分母整体固定为一个常量,即: w T S w w = 1 \mathbf w^T\mathbf S_w\mathbf w=1 wTSww=1。
则可以进一步将loss function化为:
算法——求解参数
拉格朗日乘子法(Lagrange multipliers)是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有个
d
d
d变量与
k
k
k个约束条件的最优化问题转化为具有
d
+
k
d+k
d+k个变量的无约束优化问题求解。
w w w是 S b S_b Sb相对于 S w S_w Sw的属于广义特征值 λ λ λ的特征向量。
此时用拉格朗日乘子法求出来的极值点
w
w
w一定是最小值点吗?
多分类LDA
全局散度矩阵
m为整个数据集的样本个数,
S
t
S_t
St表示各个样本点到全部样本中心的距离和:
优化目标
其中 W = [ w 1 ; w 2 ; … ; w N − 1 ] \mathbf W=[\mathbf w_1;\mathbf w_2;…;\mathbf w_{N-1}] W=[w1;w2;…;wN−1],于是可拆分成:
即可得到 N − 1 N-1 N−1个 λ λ λ, λ 1 ≤ λ 2 ≤ … ≤ λ N − 1 λ_1≤λ_2≤…≤λ_{N-1} λ1≤λ2≤…≤λN−1分别对应上面 N − 1 N-1 N−1个等式。
为什么W是N-1维?
新样本必须分到一个类中,那么如果都不属于其他类就只剩下最后一个类。
应用:分类、监督降维
若将
W
\mathbf W
W视为一个投影矩阵,则多分类LDA将样本投影到
N
−
1
N-1
N−1维空间,
N
−
1
N-1
N−1通常远小子数据原有的属性数。可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。
附录
广义特征值
- 设 A , B A,B A,B为 n n n阶方阵,若存在数 λ λ λ,使得方程 A x = λ B x Ax=λBx Ax=λBx存在非零解,则称 λ λ λ为 A A A相对于 B B B的广义特征值, x x x为 A A A相对于 B B B的属于广义特征值 λ λ λ的特征向量。特别地,当 B = I B=I B=I(单位矩阵)时,广义特征值问题退化为标准特征值问题。