在进行图像的特征提取的过程中,提取的特征维数太多经常会导致特征匹配时过于复杂,消耗系统资源,不得不采用特征降维的方法。
所谓特征降维,即采用一个低纬度的特征来表示高纬度。将高纬度的特征经过某个函数映射至低纬度作为新的特征。
PCA和LDA区别:
PCA是从特征的角度协方差角度: 求出协方差矩阵的特征值和特征向量,然后将特征向量按特征值的大小排序取出前K行组成矩阵P(这个P就是我们对角化协方差矩阵的时所使用的P, 具体的可以看看矩阵对角化的过程), 这个P就是一组正交变化基, 然后将原始的矩阵X,左乘P,也就是将X变换到P组成的正交基中,然后PX=Y就是降维后的矩阵。
而LDA则是在已知样本的类标注, 希望投影到新的基后使得不同的类别之间的数据点的距离更大,同一类别的数据点更紧凑。
在PCA中,数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的。第一个坐标轴的选择是原始数据中方差最大的方向,从数据角度上来讲,这其实就是最重要的方向,即下图总直线B的方向。第二个坐标轴则是第一个的垂直或者说正交(orthogonal)方向,即下图中直线C的方向。该过程一直重复,重复的次数为原始数据中特征的数目。而这些方向所表示出的数据特征就被称为“主成分”。
那怎么来求出这些主成分呢?由线性代数的知识可以知道,通过数据集的协方差矩阵及其特征值分析,我们就可以求得这些主成分的值。一旦得到协方差矩阵的特征向量,就可以保留最大的N个值。然后可以通过把数据集乘上这N个特征向量转换到新的空间。