特征工程-特征抽取
特征抽取的目的:将原始的特征转化成一组具有物理意义或统计意义特征的过程,比如减少原始数据中某个特征的取值个数。
信号表示:抽取后的特征可以精确表示样本信息,使信息丢失很少
对应方法PCA(Principle Component Analysis)主成份分析
原理:将过多的变量综合为少数几个概括性的新变量,对原始目标进行解释,是一种降维技术。在主成份分析中,数据从原先的坐标系转到了新的坐标系,新坐标系的选择由数据本身决定。第一个坐标轴选择原始数据中方差最大的方向,第二个坐标轴选择与第一个坐标轴正交且有最大方差的方向。重复此过程,大部分方差都会包含在前面几个新的坐标轴上,因此可以忽略余下的坐标轴,即对数据进行了降维处理。
信号分类:抽取后的特征使分类后的准确性不低于使用原先特征进行分类的准确率。
对应的线性方法LDA(Linear Discriminant Analysis)
原理:LDA是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息(分类)和压缩特征空间维数(降维)的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间内有最佳的可分离性。