向量点积衡量相似度_点积相似度、余弦相似度、欧几里得相似度

本文介绍了向量的点积和余弦相似度,讨论了余弦相似度在衡量向量长度不同时的问题,并提出了调整后的余弦相似度。点积相似度在word2vec等模型中起关键作用,通过优化点积来使向量更加接近。在实际应用中,通常会对向量进行归一化处理,以计算夹角余弦值。
摘要由CSDN通过智能技术生成

看starspace的时候发现它实现了dot和cos两种similarity的度量方式,这里总结一下:

余弦相似度衡量两个向量在方向上的相似性,而不care两个向量的实际长度,A和B的长度即使是一个超级短一个超级长的情况下,二者的余弦相似性也可能为1(即theta=0,此时两个向量重合);存在的问题[1]:

余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。

比如用户对内容评分,5分制。A和B两个用户对两个商品的评分分别为A:(1,2)和B:(4,5)。我们分别用两种方法计算相似度。使用余弦相似度得出的结果是0.98,看起来两者极为相似,但从评分上看X似乎不喜欢这两个东西,而Y比较喜欢。造成这个现象的原因就在于,余弦相似度没法衡量每个维数值的差异,对数值的不敏感导致了结果的误差。

需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值。

比如A和B对两部电影评分的均值分别是(1+4)/2=2.5,(2+5)/2=3.5。那么调整后为A和B的评分分别是:(-1.5,-1.5)和(1.5,2.5),再用余弦相似度计算,得到-0.98,相似度为负值,显然更加符合现实。

修正的余弦相似度可以说就是对余弦相似度进行归一化处理的算法,公式如下:

欧几里得相似度:

点积相似度:

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值