前言
LDA线性鉴别分析,又叫线性鉴别矢量,它是Ronald Fisher发明的,所以有时候又叫Fisher鉴别矢量,它的核化版本叫KFDA(Kernel Fisher Discriminant Analysis)。
机器学习的分类问题
,是一种有监督学习。所谓有监督,就是知道训练样本的类别。顾名思义,无监督学习就是没有样本的类别信息,比如PCA就是无监督学习,如我们前面推导过的PCA,不需要知道样本的类别。
LDA的作用是降维Dimensionality Reduction。比如说,一个大型机组,有几千个测点(特征),几十个性能指标(类别),对每个性能指标而言,只跟部分测点有关。LDA可以从几千个测点里,重建性能指标的最佳区分特征,所以它又是一种特征重建算法。
二分LDA
分类问题的基础是二分分类,我们以它描述LDA算法。
设 x 是一个
设对 x 而言,有两类数据集,一个是
设 m¯ 表示数据集的均值,那么, D1 和 D2 的均值是:
注意,这里的 xi 表示一个 m 维向量,是粗体符号,那么,当然
两个
根据距离,定义 Djj∈{ 1,2} 的两个非常重要的指标,类间散度和类内散度。
类间散度,表示 D1 和 D2 之间的疏离程度,直观地来说, m¯1 和 m¯2 之间的距离越大, D1 和 D2 的类间散度越大: