机器学习—线性判别分析LDA

最新推荐文章于 2024-03-25 10:50:51 发布

BJUT赵亮

最新推荐文章于 2024-03-25 10:50:51 发布

阅读量275

点赞数

分类专栏：机器学习文章标签：北京工业大学赵亮 LDA

本文链接：https://blog.csdn.net/qq_22235017/article/details/84843701

版权

机器学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

文章目录

广义瑞利商
线性判别分析
多类别LDA降维
LDA和PCA

本文将记录有关LDA线性判别分析的内容。

广义瑞利商

定义瑞丽商函数
$\frac{x^TAx}{x^Tx}$
其中A矩阵的共轭转置矩阵和自己相等及 $A^H=A$ ,如果A矩阵为实数矩阵的话，那么 $A^T=A$ ,广义瑞利商的最大值和最小值在矩阵A的最大最小特征值之间：
$\lambda_{min}\le\frac{x^TAx}{x^Tx}\le\lambda_{max}$
广义瑞利商函数定义为：
$g(x)=\frac{x^TAx}{x^TBx}$ ，计算该函数的最值用到变量替换 $x=B^{-1/2}x'$ ，带入该函数中可得：
$g(x')=\frac{x'^TB^{-1/2T}AB^{-1/2}x'}{x'^TB^{-1/2T}BB^{-1/2}x'}\\ g(x')=\frac{x'^TB^{-1/2T}AB^{-1/2}x'}{x'^Tx'}$
则广义瑞利商的最大值最小值可以通过求解分子的矩阵的最大最小特征值得到。

线性判别分析

在有监督的数据集的降维是将数据映射到一个低维度的空间中，降维的原则采用降维之后的最大方差原则即降维之后的原类别之间的距离足够大，每个类别之内的距离足够小。
数据集 $D=\{(x_1,y_1)(x_N,y_N)\}\;y_i\in(0,1)$ ,定义 $X^0$ 为所有标签为0的样本数据集，同样定义 $X^1$ ，定义需要投影的基向量为W，定义 $u^0$ 为标签为0的样本数据集的均值，同样定义 $u^1$ ,则我们的优化函数为
$\arg\max\;J=\frac{w^T(u^1-u^0)(u^1-u^0)^Tw}{w^T\{\sum_{x\in X^0}(x-u^0)^2+\sum_{x\in X^1}(x-u^1)^2\}w}$
定义统一类内散度矩阵为
$\sum_{x\in X^0}(x-u^0)^2+\sum_{x\in X^1}(x-u^1)^2$
类间散度矩阵
$A = (u^0-u^1)^2$
则优化函数可以表示为
$\arg\max\;J=\frac{w^TAw}{w^TBw}$
则可以用广义瑞丽商求解特征值最大的所对应的向量即是所求。

多类别LDA降维

对于数据集有K个类别，则分别计算AB矩阵
$A=\sum_i^k(u-u^i)(u-u^i)^T\\ B=\sum_i^k\sum_{x \in X^i}(x-u^i)(x-u^i)^T$
则优化函数表示为
$\arg\max J=\prod\limits_{diag}\frac{w^TAw}{w^TBw}$
其中 $\prod\limits_{diag}$ 为矩阵的对称轴上的数字相乘

LDA和PCA

LDA用于降维，和PCA有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。

首先我们看看相同点：

1）两者均可以对数据进行降维。

2）两者在降维时均使用了矩阵特征分解的思想。

3）两者都假设数据符合高斯分布。

我们接着看看不同点：

1）LDA是有监督的降维方法，而PCA是无监督的降维方法

2）LDA降维最多降到类别数k-1的维数，而PCA没有这个限制。

3）LDA除了可以用于降维，还可以用于分类。

4）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。

BJUT赵亮

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习—线性判别分析LDA

文章目录广义瑞利商线性判别分析多类别LDA降维LDA和PCA本文将记录有关LDA线性判别分析的内容。广义瑞利商定义瑞丽商函数f(x)=xTAxxTxf(x) = \frac{x^TAx}{x^Tx}f(x)=xTxxTAx其中A矩阵的共轭转置矩阵和自己相等及AH=AA^H=AAH=A,如果A矩阵为实数矩阵的话，那么AT=AA^T=AAT=A,广义瑞利商的最大值和最小值在矩阵A的最大最小...
复制链接

扫一扫

专栏目录