模式识别技术漫谈(3)

最新推荐文章于 2021-06-10 14:20:09 发布

dznlong

最新推荐文章于 2021-06-10 14:20:09 发布

阅读量5.9k

点赞数 1

分类专栏：模式识别文章标签：数据分析算法

本文链接：https://blog.csdn.net/dznlong/article/details/5464623

版权

模式识别专栏收录该内容

15 篇文章 0 订阅

订阅专栏

模式识别技术漫谈(3)

-------高维空间

我们在表示某个事物的特征时，其特征数一般有三个以上的，甚至有好几百个特征，为了表示方便，对于特征值一般采用向量的形式来表示，所以我们在研究模式识别时会有很多的矩阵运算，对于特征值的运算我们可以把它想象成是一个高维空间中的运算，矩阵运算可以方便地表达高维空间中的运算，所以说线性代数是研究模式识别的数学基础，更高层次的数学理论是泛函分析，它是研究无限维空间的几何学和分析学。

对于三维以下空间，我们可以较容易地想象出来，但是三维以上的空间超出了我们的感知能力，很多在三维以下空间的计算，推广到高维空间时，则不灵了，出现了所谓的“维数灾难”，这是因为高维空间中出现了稀疏性和空空间的现象，即高维空间中的数据分布会非常地稀疏，且可能出现密度会很高的空区域中点，维数灾难是Bellman首先提出来的，它泛指在数据分析中遇到的由于变量过多而引起的一系列问题，有点象“指数爆炸”，随着指数的递增，数据会迅速膨胀到难以想象的大。

SVM模式识别技术利用核方法，在高维空间中进行变换，巧妙地解决了维数灾难的问题，所以很多实验表明SVM分类算法总是能够优于其它分类算法。虽然有如此的好办法，但是我们还是得想办法降低维数，降低了维数，不仅可以降低计算的复杂度，也可以排除不必要的干扰特征，在众多的特征中也许有些特征是没有用的，即可能存在不是特征的特征，把这些无用的特征去掉，可以改善分类器的性能，目前降低维数主要应用的办法是PCA方法，很多人在描述这个方法时总要扯上协方差矩阵，让人陷入一大堆公式的推导中，其实核心思想就是把方差最小的那些特征排除掉，如果你知道这一点，可以不用理协方差矩阵，直接通过统计样本的特征值方差来实现PCA方法。

两组特征之间的距离可以有很多种表示方法，如欧氏距离、绝对值距离、切比雪夫距离、马氏距离、兰氏距离、相似系数、定性指标的距离等，大家比较熟悉的是欧氏距离，其实这种距离在高维空间并不常用，不仅是因为计算量大，还因为不同特征的值，其计算单位不一样，不可以把每种特征同等看待，在模式识别中采用哪种距离计算方式很重要，会关系到分类器设计的成败。计算距离的方式需要根据实际情况灵活应用，有时甚至可以自己设计距离计算方式，只要满足距离的四个条件即可：

1．当且仅当两点重合时距离才会等于0;

2．距离值必需是大于或等于0;

3．对称性：从A点到B点求得的距离等于从B点到A点求得的距离；

4．三角不等式：三个点形成的三角距离关系中，任两边的和大于第三边。