作者 | 我的智慧生活
来源 | 咪付
原文 | 机器学习中的分类距离
生活中,距离通常是用于形容两个地方或两个物体之间的远近。在人工智能机器学习领域,常使用距离来衡量两个样本之间的相似度。
“物以类聚”
我们知道“物以类聚”通常用于比喻同类的东西经常聚在一起。机器学习中,距离就是遵循物以类聚的思想。通过两个样本特征数据进行距离计算后,得到的距离值越小,代表两者的相似度越高,属于同一类的可能性就越高。换句话说,距离能够决定样本的归属。
例如,在下图中,对于机器学习来说存在着两种距离:
(1)一是人物的空间位置距离;
(2)二是人物的性格爱好距离。
对第1种距离来说,A与C较A与B近;而对第2种距离来说,则是A与B较近(爱打球)。A与B的爱好距离可通过如下计算:
我们用0—10分来表征每个人对打球的喜好程度,分数越高代表越爱打球,假设A、B、C三人的分值分别如下:
可以看出,A、B两人的分数较接近,A、B两人的分数差小于A、C两人的分数差,这个分数差值也就是机器学习中要计算的距离。通过比较得出,A、B两者的距离小,容易归为一类。当然,这里仅仅分析了爱打球这一个特征属性,机器学习中通常涉及多个属性进行综合计算和判断,也就是多维度分析。
物理几何空间距离
机器学习中,计算两个样本点之间的距离有多种不同的距离衡量方法,其中最常见的就是采用物理几何空间距离进行衡量。所谓物理几何空间距离就是点到点之间在物理空间中的真实距离。通俗地说,这类距离看得见、摸得着。常见的物理几何空间距离有:
欧氏距离
(Euclidean Distance)
曼哈顿距离
(Manhattan Distance)
切比雪夫距离
(Chebyshev Distance)
闵氏距离
(Minkowski Distance)
夹角余弦
(Cosine)
这几类物理几何空间距离的应用非常多,尤其是欧氏距离。
曼哈顿距离
我们首先从曼哈顿距离来形象了解机器学习中的距离,曼哈顿距离也是机器学习中常采用的一种距离。
我们知道曼哈顿是“世界的十字路口”,那里有非常多的十字交叉路口。
曼哈顿距离,说的是从街区中的一个十字路口到另一个十字路口所经过的街区距离,因此也称为城市街区距离。下图中给出了曼哈顿距离的形象说明