相似度计算在数据挖掘和推荐系统中有着广泛的应用场景。例如:
- CF协同过滤算法中,可以利用相似度计算用户之间(User-Based)或者物品之间(Item-Based)的相似度;
- 在利用k-means进行聚类时,判断个体所属类别,可以使用相似度计算公式计算个体到簇类中心的距离;
- 利用KNN进行分类时,也可以利用相似度计算个体与已知类别之间的相似性,判断个体所属的类别;
1、欧式距离
欧式距离,也叫欧几里得距离,指在m维空间中两点的真实距离。
在二维空间中,计算点与点之间的欧式距离,
其公式为:
2、曼哈顿距离
曼哈顿距离又叫城市街区距离。所谓的城市街区距离,就是将城市比喻为二维矩阵,从一个十字路口开到另外一个十字路口,驾驶距离显然不是欧式距离,而是“曼哈顿”距离。
在二维空间中,计算点与点之间的曼哈顿距离,
其公式为: