模式识别技术漫谈(3)

模式识别技术漫谈(3)

                   -------高维空间

 

       我们在表示某个事物的特征时,其特征数一般有三个以上的,甚至有好几百个特征,为了表示方便,对于特征值一般采用向量的形式来表示,所以我们在研究模式识别时会有很多的矩阵运算,对于特征值的运算我们可以把它想象成是一个高维空间中的运算,矩阵运算可以方便地表达高维空间中的运算,所以说线性代数是研究模式识别的数学基础,更高层次的数学理论是泛函分析,它是研究无限维空间的几何学和分析学。

 

       对于三维以下空间,我们可以较容易地想象出来,但是三维以上的空间超出了我们的感知能力,很多在三维以下空间的计算,推广到高维空间时,则不灵了,出现了所谓的“维数灾难”,这是因为高维空间中出现了稀疏性和空空间的现象,即高维空间中的数据分布会非常地稀疏,且可能出现密度会很高的空区域中点,维数灾难是Bellman首先提出来的,它泛指在数据分析中遇到的由于变量过多而引起的一系列问题,有点象“指数爆炸”,随着指数的递增,数据会迅速膨胀到难以想象的大。

       SVM模式识别技术利用核方法,在高维空间中进行变换,巧妙地解决了维数灾难的问题,所以很多实验表明SVM分类算法总是能够优于其它分类算法。虽然有如此的好办法,但是我们还是得想办法降低维数,降低了维数,不仅可以降低计算的复杂度,也可以排除不必要的干扰特征,在众多的特征中也许有些特征是没有用的,即可能存在不是特征的特征,把这些无用的特征去掉,可以改善分类器的性能,目前降低维数主要应用的办法是PCA方法,很多人在描述这个方法时总要扯上协方差矩阵,让人陷入一大堆公式的推导中,其实核心思想就是把方差最小的那些特征排除掉,如果你知道这一点,可以不用理协方差矩阵,直接通过统计样本的特征值方差来实现PCA方法。

 

       两组特征之间的距离可以有很多种表示方法,如欧氏距离、绝对值距离、切比雪夫距离、马氏距离、兰氏距离、相似系数、定性指标的距离等,大家比较熟悉的是欧氏距离,其实这种距离在高维空间并不常用,不仅是因为计算量大,还因为不同特征的值,其计算单位不一样,不可以把每种特征同等看待,在模式识别中采用哪种距离计算方式很重要,会关系到分类器设计的成败。计算距离的方式需要根据实际情况灵活应用,有时甚至可以自己设计距离计算方式,只要满足距离的四个条件即可:

1.当且仅当两点重合时距离才会等于0;

2.距离值必需是大于或等于0;

3.对称性:从A点到B点求得的距离等于从B点到A点求得的距离;

4.三角不等式:三个点形成的三角距离关系中,任两边的和大于第三边。

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值