1.模型原理
线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的模式识别和分类方法,它的目标是找到一个投影,将数据投影到低维空间,使得不同类别的样本在投影后的空间中有最大的类别间距,同时最小化类内方差。
模型原理如下:
-
假设有d维的数据,分为K个类别。我们的目标是找到一个投影方向(一个长度为d的权重向量w),使得在这个方向上的投影可以最大化类别间的差异,最小化类内的方差。
-
定义类内散度矩阵(Within-Class Scatter Matrix)Sw和类间散度矩阵(Between-Class Scatter Matrix)Sb:
- 类内散度矩阵Sw表示各个类别内部数据的分散程度,计算方法是每个类别的数据与其类别均值的差的协方差之和。
- 类间散度矩阵Sb表示不同类别之间的数据分散程度,计算方法是各个类别均值与总体均值的差的协方差加权和。
-
我们要最大化一个投影方向的目标函数J(w),该目标函数定义为类间散度矩阵与类内散度矩阵的比值: