距离与相似性计算方法

640?wx_fmt=jpeg

距离

距离可以用来衡量N维空间中点的差异性,在数据分析、挖掘、监督、无监督学习等都是关键因素,那么距离算法定义为怎样才合理。

1、属性

距离是满足以下属性的变量:

640?wx_fmt=jpeg

2、一般及欧式距离

根据笛卡尔坐标,如果p=(p1,...,pn),q=(q1,...,qn)和是欧几里得n维空间中的两个点,根据勾股定理,p,q之间距离可以表示为:

640?wx_fmt=jpeg

向量p-q表示向量p和q之间的距离,这个新的向量有大小也有距离

640?wx_fmt=jpeg

上面是用坐标表示的向量p和q之间的距离,如果用向量表示就是

640?wx_fmt=jpeg

这里p-q看作一个新的向量,可以用向量p,q表示出来。

一维空间

640?wx_fmt=jpeg

二维空间

640?wx_fmt=jpeg

n维空间

一般情况下,距离如下:

640?wx_fmt=jpeg

3、平方欧式距离

欧式距离可以平方,以便在距离更远的对象上增加更大的权重,正数而言,越大的数据平方越大,这种增大是指数级的。

640?wx_fmt=jpeg

相似性

距离为0的两个向量或者说点的相似性确实最高,相似性取值通常在[-1,1]或[0,1]之间,相似性得分为1,表示相似性最高,相似性的度量也有很多种。

Dice系数

640?wx_fmt=jpeg

重叠度

640?wx_fmt=jpeg

Jaccard系数

640?wx_fmt=jpeg

Jaccard度量表示了相关性的重要程度。

 

夹角余弦

两个向量之间角度的余弦由下式给出:

640?wx_fmt=jpeg

距离和相似性是两个相反的度量。例如,数值型数据的相关程度是相似性度量,欧式距离是距离度量。通常,相似性度量的值被限制在0~1,但是距离没有这样的上界。相似性可能是负的,但根据定义,距离不能为负。

 

在不同算法,比如聚类算法中,需要找到新的距离度量。比如聚类算法中,两个簇的距离,可以是两个簇中的最远两个点的距离,也可以是最近两个点的距离,又或者到对方中心的平均距离。

猜你可能喜欢

640?wx_fmt=jpeg

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据技术派

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值