机器学习算法中常常需要使用数据之间的距离来标识两组数据之间的差异,比如k-近邻算法等。本文将介绍经常使用几种距离的概念、计算公式和应用。
这些距包括:
1. 闵可夫斯基距离
2. 欧几里得距离
3. 曼哈顿距离
4. 切比雪夫距离
5. 马氏距离
6. 余弦相似度
7. 皮尔逊相关系数
8. 汉明距离
9. 杰卡德相似系数
10. 编辑距离
11. DTW 距离
12. KL 散度
1.闵可夫斯基距离
首先介绍闵可夫斯基这个人。闵可夫斯基是俄裔德国数学家,是爱因斯坦在某大学时的数学老师,也是最早提出狭义相对论中由一个时间维和三个空间维组成的时空的人。
闵可夫斯基的计算公式是:
上面公式中x和y分别表示需要比较的两组数据。p是一个可变的值,当p取1时,公式表达的是哈密顿距离。当p取2时,公式表示的欧几里的距离。当p的值趋向于闵可夫斯基距离转化成切比雪夫距离。
2.欧几里得距离
欧几里的距离是比较常用的距离
未完待续……