![647931052941ebc90341539f062440b6.png](https://img-blog.csdnimg.cn/img_convert/647931052941ebc90341539f062440b6.png)
空间范数和距离的关系
1 向量范数
向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。
向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| <= ||x|| + ||y||。
常用的向量的范数:
L1范数:
L2范数:
Lp范数:
L∞范数: ||x||为x向量各个元素绝对值最大那个元素的绝对值
2、矩阵范数
一般来讲矩阵范数除了正定性,齐次性和三角不等式之外,还规定其必须满足相容性:
![bb21ac19844ae50f34cac579e138f5dd.png](https://img-blog.csdnimg.cn/img_convert/bb21ac19844ae50f34cac579e138f5dd.png)
。所以矩阵范数通常也称为相容范数。
2 距离欧式距离(对应L2范数):最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。n维空间中两个点x1(x11,x12,…,x1n)与 x2(x21,x22,…,x2n)间的欧氏距离,也可以用表示成向量运算的形式:
![2095408f63f2204e9d4094319a015e81.png](https://img-blog.csdnimg.cn/img_convert/2095408f63f2204e9d4094319a015e81.png)
曼哈顿距离:曼哈顿距离对应L1-范数,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。
![58a9802e370e06611dd0f1ef66ebcdde.png](https://img-blog.csdnimg.cn/img_convert/58a9802e370e06611dd0f1ef66ebcdde.png)
,要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。
切比雪夫距离,若二个向量或二个点x1和x2,其坐标分别为(x11, x12, x13, ... , x1n)和(x21, x22, x23, ... , x2n),则二者的切比雪夫距离为:d = max(|x1i - x2i|),i从1到n。对应L∞范数。闵可夫斯基距离(Minkowski Distance),闵氏距离不是一种距离,而是一组距离的定义。对应Lp范数,p为参数。
闵氏距离的定义:两个n维变量(或者两个n维空间点)x1(x11,x12,…,x1n)与 x2(x21,x22,…,x2n)间的闵可夫斯基距离定义为:
![d1beb34895ad584977197b3fea17bc77.png](https://img-blog.csdnimg.cn/img_convert/d1beb34895ad584977197b3fea17bc77.png)
下面就是重要的定理了,证明的过程太复杂了。。。我就不贴了,直接上结论:
![0e1002b1c3343d817abad5d671003b30.png](https://img-blog.csdnimg.cn/img_convert/0e1002b1c3343d817abad5d671003b30.png)
d表示特征的维度。
上述的定理表明:到给定点1的最大和最小距离之间的差不会像在高维空间中到任何点的最近距离一样快。这使得K近邻算法变得毫无意义且不稳定,因为最近和最远的邻居之间的区分度很低。我们将比率
![39aff2cff5b4ced32cdf853bd4e30156.png](https://img-blog.csdnimg.cn/img_convert/39aff2cff5b4ced32cdf853bd4e30156.png)
称为相对对比度。
Why is Euclidean distance not a good metric in high dimensions?stats.stackexchange.com![e1910aa30d3e848a372d16a6ad989f52.png](https://img-blog.csdnimg.cn/img_convert/e1910aa30d3e848a372d16a6ad989f52.png)
参考这里的解释:
对于N个样本,这N个样本中距离最远的两个样本之间的距离Dmax和距离最近的两个样本之间的距离Dmin,在维度越高的情况下,越趋近于相同。也就是说,维度趋于无穷大的情况下,这N个样本之间,所有点和其它的点基本上彼此均匀地相距,此时点之间的距离是没有意义的因为所有点到其它点的距离都趋于相同。。。。wtf。
关于维度诅咒的实验,这里有一个很好的例子:
想戒咖啡:数据分析常识- 高纬度诅咒(curse of dimensionality)zhuanlan.zhihu.com![77c7c7ccdf07d4c4251b95c4391a9545.png](https://img-blog.csdnimg.cn/img_convert/77c7c7ccdf07d4c4251b95c4391a9545.png)
下面是从几何的角度论述了高维情况下距离度量失效的问题:
https://blog.csdn.net/z13653662052/article/details/87936713blog.csdn.net总结:
![abf638e5b6e55ee2e604670b83dc6d9c.png](https://img-blog.csdnimg.cn/img_convert/abf638e5b6e55ee2e604670b83dc6d9c.png)
d为特征空间的维度,当其趋于无穷大时,距离测量开始失去其在高维空间中测量不相似性的有效性。因为维度越高的情况下,样本之间的距离越趋于相等,因此无法通过距离来测算不同样本的远近关系。