ML(三) 线性模型3.4 线性判别分析

线性判别分析(Linear Discriminant Analysis,LDA)

笔记部分
在这里插入图片描述


二分类LDA模型

原理
给定训练样法将样例投影到一条直线上,使得:

  • 同类样例的投影点尽可能接近;
  • 异类样例投影点尽可能能远离。
  • 在对新样本进行分类时,将其投影到该直线上,再根据投点的位置来确定样本的类别。

如下图所示:
在这里插入图片描述

对应到机器学习三要素中分别为:

  • 模型: f ( x ) = w T x f(\mathbf x)=\mathbf w^T\mathbf x f(x)=wTx

  • 策略:经投影的类内方差尽可能小;经投影的异类样本中心尽可能远。

  • 算法:拉格朗日乘子法求解 w \mathbf w w的最优闭式解。

策略——构建loss function

经投影的类内方差尽可能小

假设属于两类的试验样本数量分别是 m 0 m_0 m0 m 1 m_1 m1,经投影的类内方差 V a r C 0 Var_{C_0} VarC0可表示为:

Σ 0 = 1 m 0 ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T \mathbf \Sigma_0=\frac{1}{m_0}\sum\limits_{\mathbf x \in X_0}(\mathbf x-\mathbf μ_0)(\mathbf x-\mathbf μ_0)^T Σ0=m01xX0(xμ0)(xμ0)T表示标记为类别0的原始数据的协方差, μ 0 \mathbf μ_0 μ0为标记为类别0的原始数据的均值向量。

同理:则此”经投影的类内方差尽可能小“策略需要:
w T Σ 0 w + w T Σ 1 w w T Σ 0 w + w T Σ 1 w wTΣ0w+wTΣ1wwTΣ0w+wTΣ1w wTΣ0w+wTΣ1wwTΣ0w+wTΣ1w尽可能小。

经投影的异类样本中心尽可能远

用两类的均值表示经投影的异类样本中心,其距离平方为:
∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 ||wTμ0−wTμ1||2||wTμ0−wTμ1||2 wTμ0wTμ12wTμ0wTμ12
则此”经投影的异类样本中心尽可能远“策略需要:
可以让类中心之间的距离尽可能大,即 ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 ||wTμ0−wTμ1||2||wTμ0−wTμ1||2 wTμ0wTμ12wTμ0wTμ12尽可能大。

二分类线性判别的loss function

综合上述两点,由于协方差是一个矩阵,于是用将这两个值相除来得到损失函数 J J J,并最大化这个值:

其中 S b \mathbf S_b Sb为类间散度矩阵(between-class scatter matrix), S w \mathbf S_w Sw为类间散度矩阵(within-class scatter matrix)。 J J J S b \mathbf S_b Sb S w \mathbf S_w Sw的广义瑞利商。

由于 J J J的分子分母都是关于 w w w的二次项,因此其解与 w w w的长度无关(即使扩展或缩减了 w w w的长度也可以被约分),只与方向有关。又因为给定训练集后, S w S_w Sw为常量,因此可以将 w w w进行缩放,令分母整体固定为一个常量,即: w T S w w = 1 \mathbf w^T\mathbf S_w\mathbf w=1 wTSww=1

则可以进一步将loss function化为:

算法——求解参数
拉格朗日乘子法(Lagrange multipliers)是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有个 d d d变量与 k k k个约束条件的最优化问题转化为具有 d + k d+k d+k个变量的无约束优化问题求解。
在这里插入图片描述
在这里插入图片描述


w w w S b S_b Sb相对于 S w S_w Sw的属于广义特征值 λ λ λ的特征向量。

此时用拉格朗日乘子法求出来的极值点 w w w一定是最小值点吗?
在这里插入图片描述

多分类LDA

全局散度矩阵
m为整个数据集的样本个数, S t S_t St表示各个样本点到全部样本中心的距离和:

优化目标
在这里插入图片描述

其中 W = [ w 1 ; w 2 ; … ; w N − 1 ] \mathbf W=[\mathbf w_1;\mathbf w_2;…;\mathbf w_{N-1}] W=[w1;w2;;wN1],于是可拆分成:

即可得到 N − 1 N-1 N1 λ λ λ λ 1 ≤ λ 2 ≤ … ≤ λ N − 1 λ_1≤λ_2≤…≤λ_{N-1} λ1λ2λN1分别对应上面 N − 1 N-1 N1个等式。

为什么W是N-1维?
新样本必须分到一个类中,那么如果都不属于其他类就只剩下最后一个类。

应用:分类监督降维
若将 W \mathbf W W视为一个投影矩阵,则多分类LDA将样本投影到 N − 1 N-1 N1维空间, N − 1 N-1 N1通常远小子数据原有的属性数。可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。

附录

广义特征值
  • A , B A,B A,B n n n阶方阵,若存在数 λ λ λ,使得方程 A x = λ B x Ax=λBx Ax=λBx存在非零解,则称 λ λ λ A A A相对于 B B B的广义特征值, x x x A A A相对于 B B B的属于广义特征值 λ λ λ的特征向量。特别地,当 B = I B=I B=I(单位矩阵)时,广义特征值问题退化为标准特征值问题。

广义瑞丽商

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值