特征的选择与提取


基本任务:从许多特征中找出那些最有效的特征。

在这里插入图片描述

1. 对样本特征库初步分析

过程概述:对原始数据进行抽取,抽取对区别不同类别最重要的特征,舍去那些对分类无多大贡献的特征。如果区别不同类别的特征都从输入数据中找到,这时自动模式识别问题就简化为匹配和查表,模式识别就不困难了。

目的:评估一下特征库是否包含足够信息,是否可以用来做模式识别。

(1)样本数量(N)与特征数目(n)应符合下列关系

  • 对两类分类问题: N n ≥ 3 \frac{N}{n} \ge 3 nN3
  • 对线性或非线性回归问题: N ≫ n N\gg n Nn

(2)对样本特征库做初步分析
常用“KNN留一法”判据做邻近分析,来衡量各类别之间的可分性。

KNN留一法:以每个样品点与其多数最近邻属于同类与否作为判据。

如果样本在特征空间分散,则需要选择具有泛化能力强的分类器,如神经网络分类器、支持向量机分类器等。

2. 对样本筛选处理

离群点 = 噪声
去掉“离群点”,减少这些“离群点‘对分类器的干扰。当条件所限无法采集大量的训练样品时,应慎重对待离群点。

3. 特征筛选处理

过程概述:分析特征之间的相关性,考察每个特征因子与目标有误关系,以及特征因子之间是否存在相关关系。删去哪些相关因子,在样本不多的条件下可以改善分类器的总体性能,降低模式识别系统的代价。在设计识别方案的初级阶段应尽可能多地列举与分类有关地特征,然后慢慢减少。

通常样本数是特征数的5~10倍

(1) 单特征相关分析

(2) 双特征相关分析

(3) 三特征相关分析

(4) 子空间局部考察

(5) 特征选择及搜索算法

4. 特征评判

分析经过筛选之后的特征,对分类效果能否提高,能否拉大不同类别之间的距离。

5. 特征提取

用较少的特征对样本进行描述。

如果选用的特征空间能使同类物体分布具有紧致性,则特征选择良好,为分类器设计提供了良好基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值