几种相似度/距离计算方法
闵可夫斯基距离/欧氏距离
d
i
s
t
(
X
,
Y
)
=
∑
i
=
1
n
(
∣
x
i
−
y
i
∣
p
)
1
/
p
dist({X,Y})={\sum_{i=1}^n({\vert{x_i-y_i}\vert}^p)}^{1/p}
dist(X,Y)=i=1∑n(∣xi−yi∣p)1/p
杰卡德相似系数
J
(
A
,
B
)
=
∣
A
⋂
B
A
⋃
B
∣
J(A,B)=\vert{\frac{A \bigcap B}{A \bigcup B}}\vert
J(A,B)=∣A⋃BA⋂B∣
余弦相似度
c
o
s
(
θ
)
=
a
T
b
∣
a
∣
⋅
∣
b
∣
cos(\theta)=\frac{a^Tb}{\vert a \vert·\vert b \vert}
cos(θ)=∣a∣⋅∣b∣aTb
Pearson相似系数
ρ
X
Y
=
c
o
v
(
X
,
Y
)
σ
X
σ
Y
=
E
∣
(
X
−
μ
X
)
(
Y
−
μ
Y
)
∣
σ
X
σ
Y
=
∑
i
=
1
n
(
X
i
−
μ
X
)
(
Y
i
−
μ
Y
)
∑
i
=
1
n
(
X
i
−
μ
X
)
2
∑
i
=
1
n
(
Y
i
−
μ
Y
)
2
\rho_{XY}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}=\frac{E|(X-\mu_X)(Y-\mu_Y)|}{\sigma_X\sigma_Y}=\frac{\sum_{i=1}^n{(X_i-\mu_X)(Y_i-\mu_Y)}}{\sqrt{\sum_{i=1}^n(X_i-\mu_X)^2}{\sqrt{\sum_{i=1}^n(Y_i-\mu_Y)^2}}}
ρXY=σXσYcov(X,Y)=σXσYE∣(X−μX)(Y−μY)∣=∑i=1n(Xi−μX)2∑i=1n(Yi−μY)2∑i=1n(Xi−μX)(Yi−μY)
相对熵(K-L距离)
D
(
p
∣
∣
q
)
=
∑
x
p
(
x
)
log
p
(
x
)
q
(
x
)
=
E
p
(
x
)
log
p
(
x
)
q
(
x
)
D(p||q)=\sum_x{p(x)\log{\frac{p(x)}{q(x)}}}=E_{p(x)}\log{\frac{p(x)}{q(x)}}
D(p∣∣q)=x∑p(x)logq(x)p(x)=Ep(x)logq(x)p(x)
K-means算法(待补充)
密度最大值聚类
定义局部密度
ρ
i
\rho_i
ρi
ρ
=
∑
j
χ
(
d
i
j
−
d
c
)
,
χ
(
x
)
=
{
1
:
x
<
0
0
:
o
t
h
e
r
w
i
s
e
\rho=\sum_j\chi(d_{ij}-d_c) , \chi(x)=\left\{ \begin{aligned} 1 &: x < 0\\ 0 &: otherwise \end{aligned} \right.
ρ=j∑χ(dij−dc),χ(x)={10:x<0:otherwise
d
c
dc
dc:截断距离
ρ i \rho_i ρi:到点i的距离(相似度)小于dc的点的个数
高局部密度点距离
δ
i
=
m
i
n
j
:
ρ
j
>
ρ
i
(
d
i
j
)
\delta_i=min_{j:\rho_j>\rho_i}(d_{ij})
δi=minj:ρj>ρi(dij)
在密度高于对象i的所有对象中,到对象i最近的距离
簇中心的识别
- 有着比较大的局部密度
$\rho_i$
和很大的高局部密度点距离$\delta_i$
的店为簇中心。 - 高局部密度较大但局部密度较小的点是异常点。
可靠性:对边界和噪声的认
拉普拉斯矩阵及其性质
拉普拉斯矩阵
L
=
D
−
W
L=D-W
L=D−W
f
′
L
f
=
1
2
∑
i
,
j
=
1
n
w
i
j
(
f
i
−
f
j
)
2
f'Lf=\frac{1}{2}\sum_{i,j=1}^n{w^{ij}(f_i-f_j)^2}
f′Lf=21i,j=1∑nwij(fi−fj)2
L是对称半正定矩阵,有n个非负实特征值。性质:令G是权值非负的无向图,L的特征值0的重数K等于图G的连通分量数。