余弦距离介绍

深度学习视觉

已于 2022-01-28 09:35:47 修改

阅读量3.4w

点赞数 14

分类专栏： Machine Learning 文章标签：余弦距离

于 2019-04-25 14:01:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lucky_kai/article/details/89514868

版权

Machine Learning 专栏收录该内容

29 篇文章 2 订阅

订阅专栏

更多深度学习资讯都在公众号：深度学习视觉
回复：python大礼包，200G资源到手。
MyBlog

概述： 在机器学习领域中，通常将特征表示为向量的形式，所以在分析两个特征向量之间的相似性时，常用余弦相似度表示。例如将两篇文章向量化，余弦距离可以避免因为文章的长度不同而导致距离偏大，余弦距离只考虑两篇文章生成的向量的夹角。

余弦相似度的取值范围是[-1,1]，相同两个向量的之间的相似度为1。

余弦距离的取值范围是[0,2]。

余弦相似度的定义公式为 $cos(A,B)=\frac{A\cdot B}{||A||_2||B||_2}$

归一化后 $A||_2=1,||B||_2=1,||A||_2||B||_2=1$

余弦距离：

$dist(A,B)=1-cos(A,B)=\frac{{||A||_2||B||_2} -A\cdot B}{||A||_2||B||_2}$ ，距离恒大于等于0

欧式距离： $||A-B||^2 = ||A||^2_2+||B||^2_2-2A\cdot B=2-2A\cdot B=2(1-A\cdot B)=>||A-B|| =\sqrt{2dist(A,B)}$

由公式可以看出归一化后，欧式距离与余弦距离存在单调性关系。此时两种距离的值域都为[0,2]。

欧式距离与余弦距离的对比：

1.欧式距离的数值受到维度的影响，余弦相似度在高维的情况下也依然保持低维完全相同时相似度为1等性质。

2.欧式距离体现的是距离上的绝对差异，余弦距离体现的是方向上的相对差异。

不同情况不同选择：

1.两个人分别取了蓝球(1,0)与红球(0,1)，这两个向量的欧式距离较小，可是事实是这两个球是不同的,而余弦距离为2表示的是完全不同的意思。所以在这种情况下选择余弦距离更具合理性。

2.两个人对APP的使用次数与使用时长分别表示为(1,10),(10,100),可知余弦相似度较小，说明这两个人的行为时相同的，可是，事实是不同的，两个人的活跃度有着极大的差异，第二个人的活跃度更高。

余弦距离满足正定性和对称性，但是不满足三角不等式，因此余弦距离不是一个严格定义的距离。

距离的定义：

在一个集合中，如果每一对元素均可唯一确定一个实数，使得三条距离公理（正定性，对称性，三角不等式）成立，则该实数可以称为这对元素之间的距离。

证明：

1.正定性

余弦距离公式： $dist(A,B)=1-cos\theta$ ，因为 $-1\leq cos\theta \leq 1$ ，所以 $dist(A,B)\geq 0$ 满足正定性。

2.对称性：

$dist(A,B)=1-cos(A,B)=\frac{{||A||_2||B||_2} -A\cdot B}{||A||_2||B||_2} =\frac{{||B||_2||A||_2} -B\cdot A}{||B||_2||A||_2} =dist(B,A)$ ，满足对称性。

3.三角不等式：

给定A=(1,0),B=(1,1),C=(0,1)，则有 $dist(A,B)=1-\frac{\sqrt{2} }{2}$ , $dist(B,C)=1-\frac{\sqrt{2} }{2}$ , $d i s t (A, C) = 1$

因此有 $\sqrt{2} < 1 = dist(A,C)$ ，所以得出余弦距离不符合三角不等式。

python下的一棵樱花树：
PYthon开发者的画笔

深度学习视觉

关注

14
点赞
踩
58

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。