给一个集合,
V={x|x∈Rn}
V
=
{
x
|
x
∈
R
n
}
, 和一个点
u∈Rn
u
∈
R
n
, 依次计算
u
u
与中各个点的距离, 然后按照从近到远排序, 就可以得到一个序列
A=<x1,x2,...>
A
=<
x
1
,
x
2
,
.
.
.
>
.
距离函数可以取
- cosine similarity
值域 [−1,1] [ − 1 , 1 ] ,越大表示越相近. - Euclidean distance
值域 [0,+∞] [ 0 , + ∞ ] , 越小表示越近.
在二维空间中, 余弦距离是夹角, 欧氏距离是远近. 很明显二者各自得出的序列
A
A
是不同的.
但要是对和
V
V
中的点作归一化呢? 得到的两个 是否就相同了呢? 因为在二维空间中容易得到直观的这个推测.
真是的答案是 Yes!
cosine similarity is identical to l2-normalized euclidean distance someway.
For
ℓ2
ℓ
2
-normalized vectors
x,y
x
,
y
,
we have that the squared Euclidean distance is proportional to the cosine distance,
从式(1)中可以看出, 夹角越大, 欧氏距离的平方就越大, 这就是想要的证明!