深度学习-距离计算


前言

本深度学习系列是根据paddle飞浆所简单整理的,需要可自行跳转学习。本节是关于深度学习距离计算的相关内容,包括向量距离与相似度。这是只会简单记录小部分知识,目的是方便以后复习用。


一、向量距离与相似度

向量距离对应的数学知识点是向量范数。通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,显然两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。

1.常见的距离计算方式

1.1闵可夫斯基距离(Minkowski Distance)

Minkowski Distane对应与向量的“lp范数”,是对多个距离度量公式概括性的表述。街市距离、欧几里得距离、其特例切比雪夫距离都是其特例。分别对应着单位圆的内接正方形–>单位圆–>…圆…–>外接正方形。

1.2 街市距离(曼哈顿距离)(Manhattan Distance)
1.3 欧式距离/欧几里得距离(Euclidean distance)
1.4 切比雪夫距离(Chebyshev Distance)
1.5 海明距离(Hamming Distance)

在信息论中,两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。

1.6 加权距离

作用:使用加权距离可以消除不同量纲带来的影响,但是引出了另外一个问题—如何确定每一维特征的权重?

1.7 KL散度

作用:给定随机变量X和两个概率分布P和Q,KL散度可以用来衡量两个分布之间的差异性。

1.8 样本的规格化

原因:样本规格化的原因是不同维度的特征采用不同量纲其对应的分布范围不在相同或相似的范围之内。
作用:使用样本规格化也可以消除不同量纲带来的影响,在一定程度上与加权距离是可以相互转化的(原因是闵可夫斯基距离具有平移不变性)。
规格化的两种方法:
①归一化操作:每一维特征平移和缩放到[0,1]之间
②高斯分布:设每一维特征都符合高斯分布,通过平移和缩放使其均值为0,方差为1的标准高斯分布

2.常见的相似度函数

2.1 余弦相似度(Cosine Similarity)

如果两个向量的相似程度只与它们之间的夹角有关,而与长度无关,那么就用向量夹角的余弦来度量相似值。

2.2 皮尔逊相关系数 (Pearson Correlation Coefficient)

与2.1余弦相似度类似,实际上数据中心化之后向量之间的余弦相似度。
数据中心化的两种形式:①均值 ②向量特征均值

2.3 Jaccard 相似系数(Jaccard Coefficient)

假设有两个集合X和Y(注意这里的两者不是向量),则其计算公式为并交比

3.向量距离与相似度度量之间的关系

向量距离越小越相近;相似度越大越相近。所以说角度相似度和相关系数可以转化成距离:d(x,y) = 1 - s(x,y)。


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值