机器学习基础---降维方法---线性判别分析（LDA）推导

最新推荐文章于 2024-08-03 18:20:15 发布

Guanxiong He

最新推荐文章于 2024-08-03 18:20:15 发布

阅读量469

点赞数

分类专栏：机器学习基础文章标签：机器学习线性代数人工智能

本文链接：https://blog.csdn.net/jkgghvfuj/article/details/121068712

版权

机器学习基础专栏收录该内容

20 篇文章 4 订阅

订阅专栏

线性判别分析（LDA）

算法描述

核心思想：

LDA方法属于有监督降维，其需要由标签信息输入
算法目标是将样本矩阵X经过线性映射W投影到子空间，使降维后样本类间距离尽可能远，类内方差足够小（最大化类间距离，最小化类内距离）

目标优化推导：

优化目标：

对线性映射 $Y=W^TX$ ，优化的方向是：
- 同类样本投影后尽可能接近 ==> 对同类样本，投影后的 $W^Tx_i$ 之间方差尽可能小
  - 最大化目标：
    $\sum_{i=1}^CW^TX_iX_i^TW=S_w=\sum_{i=1}^CW^T∑_iW=W^TS_wW$
- 异类样本投影后尽可能远离 ==> 对异类样本，投影后样本中心点 $W^Tu_{i}$ 之间方差尽可能大
  - 最小化目标：
    $\sum_{i=1}^C\sum_{j=1}^{N_i}(W^Tx_i^j-W^Tu_i)(W^Tx_i^j-W^Tu_i)^T=W^TS_bW$
- 可以定义优化目标为：
  $\underset{W}{argmax}J(W)=\underset{W}{argmax}\frac{\prod_{diag}(W^TS_bW)}{\prod_{diag}(W^TS_wW)}\\$
  $J (W)$ 可转化为广义瑞利商的乘积：
  $J(W)=\frac{\prod_{diag}(W^TS_bW)}{\prod_{diag}(W^TS_wW)}=\frac{\prod_{i=1}^mw_i^TS_bw}{\prod_{i=1}^mw_i^TS_ww}=\prod_{i=1}^m\frac{w_i^TS_bw}{w_i^TS_ww}$
  根据广义瑞利商性质，有：
  
  $\frac{w_i^TS_bw}{w_i^TS_ww}$ 最大值m个为矩阵 $S_w^{-1}S_b$ 的最大m个特征值，此时m个特征值对应的m个特征向量张成矩阵W
矩阵形式推导：
- 定义目标函数：
  $\underset{W}{argmax}J(W)=\underset{W}{argmax\ \ }\frac{tr(W^TS_bW)}{tr(W^TS_wW)}$
  
  约束 $tr(W^TS_wW)=n$ ，即 $W^TS_wW=I$
  
  此时优化目标为：
  $\underset{W}{max}\ tr(W^TS_bW)\\ s.t.\ W^TS_wW=I$
  使用拉格朗日乘子法，将目标转换为：
  $tr(W^TS_bW)-tr(\Lambda(W^TS_wW-I))$
  求导，令对W偏导为0，得：
  $2S_bW-2\Lambda S_mW=0\\ 得：S_bW=\Lambda S_m W\\ 有：S_m^{-1}S_bW=\Lambda W$
  与先前在PCA过程中的推导类似，得到W由 $S_m^{-1}S_b$ 的特征向量作为列向量构成，且为了最大化目标函数，选取的特征向量应该是最大m个特征值对应的特征向量

算法流程

1）输入：样本向量集 $X=[x_1,x_2,...,x_n]$ ；样本标签 $Y=[y_1,y_2,...,y_n]^T$ ， $y_i\in \{c_1,c_2,...,c_C\}$ ；目标维度m

2）计算类内散度矩阵 $S_w$ ，类间散度矩阵 $S_b$

3）计算 $S_w^{-1}S_b$ ，并进行特征值分解，得到最大m个特征值与对应特征向量 $w_1,w2,...,w_m$

4）对 $W=[w_1,w_2,...,w_m]$ ，对原样本集进行变换，得到 $Y'=W^TX$ ，完成降维

参考资料

【1】线性判别分析LDA原理总结

【2】《统计学习方法》李航

Guanxiong He

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础---降维方法---线性判别分析（LDA）推导

线性判别分析（LDA）算法描述核心思想：LDA方法属于有监督降维，其需要由标签信息输入算法目标是将样本矩阵X经过线性映射W投影到子空间，使降维后样本类间距离尽可能远，类内方差足够小（最大化类间距离，最小化类内距离）相关定义：输入数据集X=[x1,x2,...,xN]X=[x_1,x_2,...,x_N]X=[x1,x2,...,xN]定义指示矩阵F，矩阵大小为N*C（样本数*类别数）；该矩阵每个行向量FiF_iFi与样本xix_ixi对应，当xix_ixi为第c类样本，
复制链接

扫一扫