机器学习中如何判断两个属性之间的关系_机器学习中的分类距离

本文介绍了机器学习中用于衡量样本相似度的距离度量方法,包括欧氏距离、曼哈顿距离、切比雪夫距离、闵氏距离和夹角余弦。通过具体的例子和二维坐标图,展示了这些距离度量的计算方法和应用场景,并指出它们在不同情况下的适用性。最后,文章提到在考虑分量相关性和个体比重时,可能需要使用如马氏距离等更复杂的分布距离。
摘要由CSDN通过智能技术生成

62967acec71f46e1266282d2f5646c8c.png
作者 | 我的智慧生活
来源 | 咪付
原文 | 机器学习中的分类距离

生活中,距离通常是用于形容两个地方或两个物体之间的远近。在人工智能机器学习领域,常使用距离来衡量两个样本之间的相似度。

“物以类聚”

我们知道“物以类聚”通常用于比喻同类的东西经常聚在一起。机器学习中,距离就是遵循物以类聚的思想。通过两个样本特征数据进行距离计算后,得到的距离值越小,代表两者的相似度越高,属于同一类的可能性就越高。换句话说,距离能够决定样本的归属。

例如,在下图中,对于机器学习来说存在着两种距离:

(1)一是人物的空间位置距离;

(2)二是人物的性格爱好距离。

f7361d28f2e4a2148626f817ecb8c704.png

对第1种距离来说,A与C较A与B近;而对第2种距离来说,则是A与B较近(爱打球)。A与B的爱好距离可通过如下计算:

我们用0—10分来表征每个人对打球的喜好程度,分数越高代表越爱打球,假设A、B、C三人的分值分别如下:

2a736ca9ed4fef7ec4d5cd94aaba90fb.png

可以看出,A、B两人的分数较接近,A、B两人的分数差小于A、C两人的分数差,这个分数差值也就是机器学习中要计算的距离。通过比较得出,A、B两者的距离小,容易归为一类。当然,这里仅仅分析了爱打球这一个特征属性,机器学习中通常涉及多个属性进行综合计算和判断,也就是多维度分析。

物理几何空间距离

机器学习中,计算两个样本点之间的距离有多种不同的距离衡量方法,其中最常见的就是采用物理几何空间距离进行衡量。所谓物理几何空间距离就是点到点之间在物理空间中的真实距离。通俗地说,这类距离看得见、摸得着。常见的物理几何空间距离有:

欧氏距离

(Euclidean Distance)

曼哈顿距离

(Manhattan Distance)

切比雪夫距离

(Chebyshev Distance)

闵氏距离

(Minkowski Distance)

夹角余弦

(Cosine)

这几类物理几何空间距离的应用非常多,尤其是欧氏距离。

曼哈顿距离

我们首先从曼哈顿距离来形象了解机器学习中的距离,曼哈顿距离也是机器学习中常采用的一种距离。

我们知道曼哈顿是“世界的十字路口”,那里有非常多的十字交叉路口。

a9e9b8a0cf4c118c18874697c932d65c.png

曼哈顿距离,说的是从街区中的一个十字路口到另一个十字路口所经过的街区距离,因此也称为城市街区距离。下图中给出了曼哈顿距离的形象说明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值