Fisher算法分析

AC__dream

于 2022-10-23 19:05:23 发布

阅读量2.4k

点赞数 6

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/AC__dream/article/details/127439289

版权

Fisher算法旨在将高维数据降至一维，同时最大化类间距离和最小化类内距离，提高分类效果。通过寻找使得类间离散度/类内离散度比值最大的投影方向，实现数据的最佳可分离性。理论分析涉及特征向量、超平面以及类间、类内矩阵的最小化和最大化。最终，找到的最优特征向量对应于最大广义瑞利商的特征向量，用于数据的降维与分类。

摘要由CSDN通过智能技术生成

在处理数据的时候，我们往往会遇到高维数据，对于这种数据进行分类往往比较头疼，如果我们能把高维数据降至一维而且还不影响其分类效果，那么这将会有利于分类，而Fisher算法就是用来将高维数据降至一维而尽量保持其原有特征的一种算法。

先来看一下这个降维效果，明显可以发现这并不是我们想要的，因为蓝色数据和红色数据有重合部分，而且大部分蓝色点和红色点距离过小，这样容易造成错误分类。

再来看一下下面这张图：

对于同样的一组数据，我们能明显发现这个分类效果要好，一个显著的特点就是蓝色点和红色点各自比较聚集，但两者之间又比较分散，这就是我们想要的降维效果。

那这种效果具有什么特点呢？首先分别对于蓝色点和红色点来说，同一种类的点必须要尽量聚集，但是不同类的点就要尽量分散。也就是说同一类点的类内矩阵要尽量小，不同类之间的类间矩阵要尽量大。

下面来进行理论分析：

假设x是d维特征向量，那么我们就需要一个d维的向量w来对原来的高维数据进行降维，假设降维后的数据是y，那么就有y= $w^T$ *x+w0.

分类依据：假如降维后的值y是大于0的，那么就将x看作一类点，降维后的值y小于0的看作令一类点，而降维后的值y等于0的数据我们可以将其分为任意一类或者拒绝为其分类均可。

先来看一下这个向量到底是怎么起到投影作用的。以一个三维的数据为例，我们知道2x1+3x2-6x3+7=0是表示一个平面，这个平面方程也可以表示为行向量(2,3,-6)*列向量(x1,x2,x3)+7=0，所以这个行向量就是 $w^T$ 向量，我们知道(2,3,-6)其实就是2x1+3x2-6x3+7=0这个平面的法向量，那么我们就不难发现其实 $w^T$ 向量就是超平面方程 $w^T$ *x+w0=0的法向量，而w0其实就是这个超平面的截距，现在我们知道了 $w^T$ 向量的含义，那么为什么将一个数据代入这个方程能够得到映射后的值呢？

我们先来看一下一个d维空间下的特征向量x到超平面的距离公式是什么，其实就是 $|(w^T*x+w0)|/|w^T|$ ,其中如果我们去掉分子上的绝对值，则代表特征向量到超平面的距离存在负值，也就是位于超平面下方的数据求出来的距离会是负值，而现在我们代入求出的值是 $(w^T*x+w0)$ ，这个值如果是正的代表这个特征向量是在超平面 $w^T$ *x+w0=0上方的，否则就说明这个特征向量在超平面下方，至于分母上值的大小我们其实不用特别关心，因为除以一个正数并不会影响最后的值与0的关系，也就是不会改变这个特征向量与超平面之间的位置关系。所以这就是为什么可以利用这个超平面进行分类。