模式识别之特征评估
本文内容学习自《模式识别与智能计算——MATLAB技术实现》
对原特征空间进行优化后,就要对优化的结果进行评价,通过反复选择不同的特征组合,采用定量分析比较的方法,判断所得到的特征维数,以及所使用的特征是否对分类最有利,这种以定量检验分类性能的准则称为类别可分离性判据,用来检验不同的特征祝贺对分类性能好会的影响。
对待特征评估的方法dating分为两类:
- 以计算样品在特征空间的离散程度为基础的准则,称为基于距离的可分性判据
- 基于概率密度分布的判据
基于距离的可分性判据:
给定一组表示联合分布点的训练集,假定每一类的模式向量在观察空间中占据不同的区域是合理的,类别模式间距离或平均距离则是模式空间中类别可分离性度量。基于距离的可分性判据的出发点:各类样本间的距离越大,类内散度越小,则类别的可分性越好。
在一个特征候选集 X = [x1,x2,x3,...,xn] 所定义的n为特征空间中,用 d(Xik,Xjl) 表示第i类中第k个样品和第j类中第l个样品间距离的的度量值,距离度量 d(Xik,Xjl) 可采用欧几里得距离计算:
d(Xik,Xjl)=[∑m=1D(xij,m−xjl,m)2]1/2(i,j=1,2,...,M;k=1,2,...,Ni;l=1,2,...,Nj)
类间的平均距离可采用下式计算:
J=1/2∑i=1M∑j=1M[P(wi)P(wj)⋅1/NiNj∑k=1Ni∑l=1Njd(