文本向量的距离测度——欧氏距离、曼哈顿距离、余弦相似度


在NLP中文本均会被表示为向量的形式,为了给出任何两个文本之间的相似程度,则可以利用各类的距离进行表示,其中最为著名的两种距离就是欧式距离和宇轩相似度,此外还有曼哈顿距离也被广泛使用。而这三个测度方式均是在欧式空间下进行的。

本文以如下的两个向量作为例子进行具体的阐述:

	vec1=[x1,x2,x3...xn]
	vec2=[y1,y2,y3...yn]

欧氏距离

欧式距离就是最简单最直观的测度方式,两点之间连线最短,把这两个点的连线的距离计算出来就可以得到欧氏距离的结果了。也就是利用如下的公式可以计算出来。

E u c l i d e a n _ D i s t a n c e ( v e c 1 , v e c 2 ) = ∑ i = 1 n ( x i − y i ) 2 Euclidean\_Distance(vec1,vec2)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} Euclidean_Distance(vec1,vec2)=i=1n(xiyi)2

曼哈顿距离

曼哈顿距离作为向量距离的另一种测度方式,是将某一向量在绝对值方向上进行移动,最终变为另一向量的总体变动的距离之和。具体的公式可以表示为如下形式。
M a n h a t t a n _ D i s t a n c e ( v e c 1 , v e c 2 ) = ∑ i = 1 n ∣ x i − y i ∣ Manhattan\_Distance(vec1,vec2)=\sum_{i=1}^n|x_i-y_i| Manhattan_Distance(vec1,vec2)=i=1nxiyi

曼哈顿距离和欧氏距离的区别

在这里插入图片描述
引用最经典的一个图,上图可以认为是两点之间的4个路径。其中绿色路径的距离是欧式距离,而剩下的三条均是曼哈顿距离。

可以直观的理解,欧式距离与平方相关,曼哈顿距离与绝对值相关。

余弦相似度

本质上余弦相似度并不是一种距离的测度,当然可以利用1-余弦相似度的方法来定义余弦距离。但是余弦相似度与欧氏距离经常一起出现。所以本文也一并将其列出来进行简单的介绍。
c o s i n e _ s i m i l a r i t y ( v e c 1 , v e c 2 ) = v e c 1 ⋅ v e c 2 ∣ v e c 1 ∣ × ∣ v e c 2 ∣ = ∑ i = 1 n ( x i × y i ) ∑ i = 1 n x i × ∑ i = 1 n y i cosine\_similarity(vec1,vec2)=\frac{vec1\cdot vec2}{|vec1|\times |vec2|}=\frac{\sum_{i=1}^n(x_i\times y_i)}{\sum_{i=1}^nx_i \times \sum_{i=1}^ny_i} cosine_similarity(vec1,vec2)=vec1×vec2vec1vec2=i=1nxi×i=1nyii=1n(xi×yi)

余弦相似度和欧氏距离的区别

在这里插入图片描述
上图较为清晰的表示出欧氏距离与余弦相似度的本质内容,一个是真实在数值上的差异,另一个是在方向与趋势上的差异。

不同的使用场景需要选择不同的度量方式。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值