LDA(线性判别算法)
不同于PCA方差最大化理论,LDA算法的思想是将数据投影到低维空间之后,使得同一类数据尽可能的紧凑,不同类的数据尽可能分散。因此,LDA算法是一种有监督的机器学习算法。同时,LDA有如下两个假设:
(1) 原始数据根据样本均值进行分类。
(2) 不同类的数据拥有相同的协方差矩阵。
当然,在实际情况中,不可能满足以上两个假设。但是当数据主要是由均值来区分的时候,LDA一般都可以取得很好的效果。图1 LDA和PCA对数据进行降维
如图1所示,原始数据主要是根据均值来划分的,此时LDA降维效果很好,但是PCA效果就很差。图2 LDA和PCA对数据进行降维
图2的两类数据主要区别是方差不同,因此此时PCA降维效果比较好,而LDA降维效果比较差。
1 基本思想
将原始数据投影至低维空间,尽量使同一类的数据聚集,不同类的数据尽可能分散。
1 原理推导
假设我们现已有如下的数据集
其中样本
为任意
维向量,类别
,定义
是第
类样本的个数,