机器学习判别分析算法——线性判别分析和二次判别分析基本原理（1）

本文链接：https://blog.csdn.net/qq_45932996/article/details/141689788

判别分析算法最早由Fisher在1936年提出，是一种经典而常用的机器学习方法，本质上也是一种线性算法，常用来做特征提取、数据降维和任务分类，可用于二分类或多分类问题，在人脸识别或检测等领域发挥了重要作用。根据每一种分类的协方差矩阵是否相同，判别分析算法可以分为线性判别分析（Linear Discriminant Analysis, LDA）和二次判别分析（Quadratic Discriminant Analysis,QDA），其中线性判别分析假定每一种分类的协方差矩阵相同，而在样本集数据量较大或者观测类别较多时，等协方差矩阵的假设会被拒绝，就需要用到二次判别分析。

讲解两种判别分析算法的基本原理（第一篇），第二篇和第三篇是结合具体实例分别讲解算法线性判别分析（Linear Discriminant Analysis, LDA）和二次判别分析（Quadratic Discriminant Analysis,QDA）。

1 线性判别分析的基本原理

线性判别分析算法使用贝叶斯规则来确定示例属于哪一类的后验概率，该算法假设每个类别中的观测值均来自多元正态分布，并且预测变量的协方差在响应变量Y的所有k个水平上都是相同的，或者说假定不同分组样本的协方差矩阵近似相等。

线性判别分析算法的基本思想是“类间大、类内小”，实现过程是：首先将样本全集分为训练样本和测试样本，针对训练样本，设法找到一条直线，将所有样本投影到这条直线上，使得相同分类的样本在该直线上的投影尽可能落在一起，而不同分类的样本在该直线上的投影尽可能远离，一言以蔽之就是使得同类之间的差异性尽可能小，不同类之间的差异性尽可能大；然后针对测试样本，将它投影到已经找到的直线上，根据具体投影点的落地位置来判定样本的类别。

作为一种有监督的机器学习方法，线性判别分析在分类方面具有独特的优势，相对于主成分分析（Principle Component Analysis, PCA）算法（将在后面详细介绍）这种非监督式学习方法，线性判别分析充分利用了数据内部的原始分类信息。主成分分析算法通过寻找k个向量，将数据投影到这k个向量展开的线性子空间上，是在最大化两类投影中心距离准则下得到的分类结果，如图7.1所示，该算法将数据整体映射到了最方便表示这组数据的坐标轴上，或者说实现了投影误差最小化。但是由于主成分分析算法将整组数据进行映射时没有利用数据原始分类信息，因此分类效果并不理想。

主成分分析算法投影方式：