一,欧几里德相似度(Euclidean Distance)
欧几里德距离
假设想,x,y是n维空间的两点,他们之间欧几里德的距离公式如下:
d
(
x
,
y
)
=
(
x
i
−
y
i
)
2
d(x,y) = \sqrt{(x_i-y_i)^2}
d(x,y)=(xi−yi)2
我们可以看出当n = 2时,欧几里德距离就是平面上两点之间的距离
欧几里德相似度计算公式如下:
s
i
m
(
x
,
y
)
=
1
1
+
d
(
x
,
y
)
sim(x,y)={\frac {\rm1} {1+d(x,y)}}
sim(x,y)=1+d(x,y)1
二,皮尔森相似度(Pearson Correlation Coefficient)
皮尔森相关系数,一把用于计算两个定距变量之间联系的紧密程度,他们的取值在[-1,+1]之间。
皮尔森相关系数计算公式如下:
以上公式等价,其中E()代表数学期望,cov代表协方差,N表示变量取值的个数。
余弦(cosine)相似度
余弦相似度的计算公式为:
s
i
m
(
X
,
Y
)
=
c
o
s
θ
=
x
⃗
y
⃗
∣
∣
x
∣
∣
⋅
∣
∣
y
∣
∣
=
∑
i
=
1
n
x
i
y
i
∑
i
=
1
n
(
x
i
)
2
∑
i
=
1
n
(
y
i
)
2
sim(X,Y)=cos\theta={{\vec{x}\vec{y}}\over{||x||\cdot ||y||}}={{\sum_{i=1}^nx_iy_i}\over{\sqrt{\sum_{i=1}^n(x_i)^2}\sqrt{\sum_{i=1}^n(y_i)^2}}}
sim(X,Y)=cosθ=∣∣x∣∣⋅∣∣y∣∣xy=∑i=1n(xi)2∑i=1n(yi)2∑i=1nxiyi