在现实应用中,许多学习方法都涉及距离计算,而高维空间会给距离计算带来很大的麻烦。例如当维数很高时,甚至连计算内积都很不容易。
这实际上,是所有机器学习都面临的严重障碍,这被称为“维数灾难(即样本非常洗漱,距离计算很困难)”。
而缓解维数灾难的两个普遍做法是降维和特征选择。
降维指的是:通过某种数学变换将原始高维属性空间转变为一个低维子空间,在这个低维的子空间中,样本密度大幅度提高,距离计算也变得很容易。
我们通常要求高维空间(原始空间)中样本之间的距离在低维空间中得以保持。
根据这个要求,我们会很自然的想到使用欧氏距离,因为欧氏距离有一个非常好的特性就是,它能够在变换中,保持相对距离不变。
所以,现在我们介绍一种非常经典的降维方法,即多维缩放(MDS)。从缩放(scale)这个词语我们就能够看出,这个方法会保持它的相对距离不变。
MDS算法的思想其实是巧妙的,即通过利用对点(数据)做平移,旋转,翻转等操作,点的距离是不变的这一特性来对原始数据进行操作。
现在我们假设原始的距离矩阵为D,而B为降维后样本的内积矩阵,Z为最后输出的降维矩阵。
先令:B=Z*ZT(Z乘以Z的转置),那么
B=Z*ZT
=(Z*M)(Z*M)T(M是一组正交基)
=Z*M*MT*Z
=Z*ZT
所以,我们可以看到。我们通过对M这一正交基,对Z做正交变换,并不会影响B的值。而实际上,正交变换刚好就是对数据做旋转、翻转的。