目录
基本任务:从许多特征中找出那些最有效的特征。
1. 对样本特征库初步分析
过程概述:对原始数据进行抽取,抽取对区别不同类别最重要的特征,舍去那些对分类无多大贡献的特征。如果区别不同类别的特征都从输入数据中找到,这时自动模式识别问题就简化为匹配和查表,模式识别就不困难了。
目的:评估一下特征库是否包含足够信息,是否可以用来做模式识别。
(1)样本数量(N)与特征数目(n)应符合下列关系
- 对两类分类问题: N n ≥ 3 \frac{N}{n} \ge 3 nN≥3
- 对线性或非线性回归问题: N ≫ n N\gg n N≫n
(2)对样本特征库做初步分析
常用“KNN留一法”判据做邻近分析,来衡量各类别之间的可分性。
KNN留一法:以每个样品点与其多数最近邻属于同类与否作为判据。
如果样本在特征空间分散,则需要选择具有泛化能力强的分类器,如神经网络分类器、支持向量机分类器等。
2. 对样本筛选处理
离群点 = 噪声
去掉“离群点”,减少这些“离群点‘对分类器的干扰。当条件所限无法采集大量的训练样品时,应慎重对待离群点。
3. 特征筛选处理
过程概述:分析特征之间的相关性,考察每个特征因子与目标有误关系,以及特征因子之间是否存在相关关系。删去哪些相关因子,在样本不多的条件下可以改善分类器的总体性能,降低模式识别系统的代价。在设计识别方案的初级阶段应尽可能多地列举与分类有关地特征,然后慢慢减少。
通常样本数是特征数的5~10倍
(1) 单特征相关分析
(2) 双特征相关分析
(3) 三特征相关分析
(4) 子空间局部考察
(5) 特征选择及搜索算法
4. 特征评判
分析经过筛选之后的特征,对分类效果能否提高,能否拉大不同类别之间的距离。
5. 特征提取
用较少的特征对样本进行描述。
如果选用的特征空间能使同类物体分布具有紧致性,则特征选择良好,为分类器设计提供了良好基础。