特征提取:
原始特征的数量可能很大,或者说处在高纬空间中,通过映射(或变换)的方法用低纬空间来表示样本,这个过程叫特征提取。
是一个变换过程 Y是测量空间 X是特征空间 变换A:Y->X 叫特征提取器。
特征选择:
从一组特征中挑选出一些最有代表性的特征,以达到降维的目的,这个过程叫特征选择。
用映射(变换)方法,把原始特征变换为较少新特征————特征提取
从原始特征中挑出一些有代表性的特征 —————— 特征选择。
类别可分性判别依据
1.基于距离
类间距离最大,类内距离最小 Fisher准则
用描述样本离散程度的方法来度量。
2.基于概率
概率密度函数的重叠性
3.基于熵的
熵表示不确定性,熵越大,不确定性越大。
我们应该选择使熵最小的特征用于分类。
K-L展开式的展开系数 是互相无关的。
K-L变换 消除了原向量 各分量之间的相关性。
使降维后总体误差最小
均方误差
原始特征的数量可能很大,或者说处在高纬空间中,通过映射(或变换)的方法用低纬空间来表示样本,这个过程叫特征提取。
是一个变换过程 Y是测量空间 X是特征空间 变换A:Y->X 叫特征提取器。
特征选择:
从一组特征中挑选出一些最有代表性的特征,以达到降维的目的,这个过程叫特征选择。
用映射(变换)方法,把原始特征变换为较少新特征————特征提取
从原始特征中挑出一些有代表性的特征 —————— 特征选择。
类别可分性判别依据
1.基于距离
类间距离最大,类内距离最小 Fisher准则
用描述样本离散程度的方法来度量。
2.基于概率
概率密度函数的重叠性
3.基于熵的
熵表示不确定性,熵越大,不确定性越大。
我们应该选择使熵最小的特征用于分类。
K-L展开式的展开系数 是互相无关的。
K-L变换 消除了原向量 各分量之间的相关性。
使降维后总体误差最小
均方误差