与线性判别分析类似,二次判别分析是另外一种线性判别分析算法,二者拥有类似的算法特征,区别仅在于:当不同分类样本的协方差矩阵相同时,使用线性判别分析;当不同分类样本的协方差矩阵不同时,则应该使用二次判别。关于线性判别分析的更多内容,请在文章《线性判别分析Linear Discriminant Analysis (LDA)》中查看。
为了清楚的了解LDA和QDA的应用差异,下图显示了在固定协方差矩阵以及不同协方差矩阵下LDA和QDA的表现差异:
由图中可以看出,在固定协方差矩阵下,LDA和QDA是没有分类结果差异的(上面两张图);但在不同的协方差矩阵下,LDA和QDA的分类边界明显存在差异,而且LDA已经不能准确的划分数据(下面两张图)。
那么,协方差矩阵是什么?
在统计学中,有几个描述样本分布的基本指标,例如均值、方差、标准差、峰度、偏度、最大值、最小值、极值等,这些都描述的是一个维度;如果一个样本存在多个维度,除了可以单独描述每个维度的分布规律外,如何描述不同维度间的关系?
协方差就是用来描述维度间关系的一个指标。它的定义为:任意两个随机变量X和Y的协方差,记为Cov(X,Y),定义为:
Cov(X,Y)=E{[ X–E(X)][Y-E(Y) ]}
其中E(X)、E(Y)反映分量X、Y各自的均值。它反映的是任意两个随机变量(或者是任意两个维度) 间的关系:
当X取值不断增大时,Y也不断增大,此时Cov(X,Y)>0