曼哈顿距离,欧式距离,余弦距离
1.曼哈顿距离
曼哈顿距离又称马氏距离(Manhattan distance),还见到过更加形象的,叫出租车距离的。具见上图黄线,应该就能明白。
计算距离最简单的方法是曼哈顿距离。假设,先考虑二维情况,只有两个乐队 x 和 y,用户A的评价为(x1,y1),用户B的评价为(x2,y2),那么,它们之间的曼哈顿距离为
2.欧式距离
欧式距离又称欧几里得距离或欧几里得度量(Euclidean Metric),以空间为基准的两点之间最短距离,与之后的切比雪夫距离的差别是,只算在空间下。说的通俗点,就是初中知识,两点之间直线最短的概念。
除了曼哈顿距离外,还可以计算两个用户之间的欧式距离。
还是先考虑两个乐队 x 和 y 的情况,假设,用户A=(x1,y1),用户B=(x2,y2),那么它们之间的欧式距离:
3.余弦距离
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。
向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。
余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b和c,对应的三个角为A,B和C,那么角A的余弦为:
如果将三角形的两边b和c看成是两个向量,则上述公式等价于:
其中分母表示两个向量b和c的长度,分子表示两个向量的内积。
总之:
采用哪种距离度量方法对最终结果有很大影响。例如,你的数据集有很多特征,但是如果任
意一对个体之间的欧氏距离都相等,那么你就没法通过欧氏距离进行比较了!曼哈顿距离在某些
情况下具有更高的稳定性,但是如果数据集中某些特征值很大,用曼哈顿距离的话,这些特征会
掩盖其他特征间的邻近关系。最后,再来说说余弦距离,它适用于特征向量很多的情况,但是它
丢弃了向量长度所包含的在某些场景下可能会很有用的一些信息。