5 余弦距离与欧式距离

5 篇文章 2 订阅
5 篇文章 0 订阅
本文介绍了余弦距离和欧式距离的概念及其在数据分析中的应用。余弦距离关注向量的方向差异,而欧式距离则衡量的是绝对距离。在Python中,通过`numpy`库可以方便地计算两者。欧氏距离适用于数值特征差异的分析,而余弦距离则在处理方向差异和不敏感于绝对数值的场景下更有优势,如用户兴趣的相似度比较。
摘要由CSDN通过智能技术生成

余弦距离与欧式距离


2、余弦距离

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,**余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。**公式如下:

余弦距离

python实现:

import numpy as np
from scipy.spatial.distance import pdist
 
x=np.random.random(10)
y=np.random.random(10)
 
# solution1
dist1 = 1 - np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))
 
# solution2
dist2 = pdist(np.vstack([x,y]),'cosine')
 
print('x',x)
print('y',y)
print('dist1',dist1)
print('dist2',dist2)

2、欧式距离

欧氏距离是最常见的距离度量,衡量的是多维空间中各个点之间的绝对距离。公式如下:

欧几里得距离(Euclidean Distance

因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别。

eg:在深度学习中,提取CNNs倒数的第二层fc作为最后的特征向量,来进行人脸比对(1:1,1:N)。

python实现:

import numpy as np

x = np.random.random(10)
y = np.random.random(10)

# solution1
dist1 = np.linalg.norm(x-y)

# solution2
dist2 = np.sqrt(np.sum(np.square(x-y)))

print('x',x)
print('y',y)
print('dist1',dist1)
print('dist2',dist2)

3、欧氏距离和余弦距离的区别

余弦距离使用两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比欧氏距离,余弦距离更加注重两个向量在方向上的差异。

借助三维坐标系来看下欧氏距离和余弦距离的区别:

从上图可以看出,欧氏距离衡量的是空间各点的绝对距离,跟各个点所在的位置坐标直接相关;而余弦距离衡量的是空间向量的夹角,更加体现在方向上的差异,而不是位置。如果保持A点位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦距离cosθ是保持不变的(因为夹角没有发生变化),而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦距离之间的不同之处。

欧氏距离和余弦距离各自有不同的计算方式和衡量特征,因此它们适用于不同的数据分析模型

欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。

余弦距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦距离对绝对数值不敏感)。


参考:

此博客只作为我自己的cv面试复习资料,转侵删。

1、欧氏距离和余弦距离

2、CV算法工程师面试4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值