一:特征:
特征分为原始特征、有效特征。
1.1 原始特征:
可以通过测量直接得到的特征。
原始特征通常有很大冗余,如果直接将原始特征作为分类特征送入分类器,不仅使分类器复杂、计算量大,且分类错误率不一定小,因此有必要减少特征数目,以获取少而精的分类特征。
1.2 有效特征:
有代表性、分类性能好的特征(通常是采用特征提取、特征选取方法获得的)。
特点:
①类内稳定,即类内差异小,同一类具有稳定性(在特征值取值上)。
②类间差异大(选择的特征对不同类应有差异),即不同类间特征值差异要比较大。
要降低误识率,则应使类间差异 > 类内差异。
③具有很好的可分性,具有很大识别信息量。
④具有可靠性,不是似是而非的、模棱两可的。
⑤强独立性,不重复、相关性弱。
⑥损失信息量小,数量尽量少。、
1.3 特征类别:
从特征类别上特征可以分为物理特征、结构特征、数字特征。
物理特征:直接的、易感知的的特征,如身高,但未必非常有效。
结构特征:较抽象的、较易感知的,表达能力较强的特征,如指纹。
数字特征:为表征对象而设立的特征,抽象的、不易感知的,如ID。有时是物理特征和结构特征的计算结果,有时与对象固有特征没有关系。
二:数据降维:
在上一节中我们知道了原始特征与有效特征。而在一般模式识别过程中,为了使分类器不过于复杂,通常需要对原始特征进行特征提取得到代表性较强的特征,然后通过特征选取得到对分类最有利的有效特征,从而达到简化计算,降低复杂度的目的。
2.1 特征提取 Feature Extraction
通过映射(或变换)的方法获取有效的特征,达到特征空间降维的目的。经过映射后的特征是原始特征的某种组合,通常是线性组合。
特征提取的方法常用的有PCA(主成分分析法,Principle Component Analysis)、LDA(Fisher判别分析法,Fisher Discriminnant Analysis,FDA)。
2.2 特征选取 Feature Selection
从一组特征中挑选出对分类最有利的特征,以达到降低特征空间维数的目的。
特征选取的方法常用的有Filter method、Wrapper method。
特征提取、特征选取的目的是在不降低或很少降低分类结果性能的情况下,降低特征空间的维数。这么做的主要作用就是:简化计算、简化特征空间结构。