相似性的度量
样本之间的相似性度量:向量的距离,反映为某类事物在距离上接近或远离的程度,即距离越近的就越相似,越容易归为一类,距离越远就越不同
范数:向量的范数可以简单、形象地理解为向量的长度,或者向量到坐标系原点的距离,或者相应空间内两点之间的距离。
向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| <= ||x|| + ||y||
L1范数: ||x||为 x 向量各个元素绝对值之和。
L2范数: ||x||为 x 向量各个元素平方和的开方,L2范数又称 Euclidean范数或者Frobenius范数
Lp范数: ||x||为 x 向量各个元素绝对值 p 次方和的 1/p 次方
L∞范数: ||x||为 x 向量各个元素绝对值最大那个元素,如下:
各类距离的意义与Python实现
1.闵可夫斯基距离
闵可夫斯基距离不是一种距离,而是一组距离的定义
两个n维变量间的闵可夫斯基距离定义为:
其中p为一个变参数
p=1时,为曼哈顿距离
p=2时,为欧氏距离
p→∞时,为切比雪夫距离
根据变参数的不同,闵可夫斯基距离可以表示一类的距离
2.欧氏距离
源自于欧式空间中两点间的距离公式
两个n维向量A(x
11,x
12,…,x
1n)与B(x
21,x
22,…,x
2n)间的欧氏距离:
3.曼哈顿距离
曼哈顿距离也成为城市街区距离(City Block Distance),如下图中的红蓝黄线条,它们是相等的,它们即AB间的曼哈顿距离
两个n维向量A(x
11,x
12,…,x
1n)与B(x
21,x
22,…,x
2n)间的曼哈顿距离