聚类方法

几种相似度/距离计算方法

闵可夫斯基距离/欧氏距离
d i s t ( X , Y ) = ∑ i = 1 n ( ∣ x i − y i ∣ p ) 1 / p dist({X,Y})={\sum_{i=1}^n({\vert{x_i-y_i}\vert}^p)}^{1/p} dist(X,Y)=i=1n(xiyip)1/p
杰卡德相似系数
J ( A , B ) = ∣ A ⋂ B A ⋃ B ∣ J(A,B)=\vert{\frac{A \bigcap B}{A \bigcup B}}\vert J(A,B)=ABAB
余弦相似度
c o s ( θ ) = a T b ∣ a ∣ ⋅ ∣ b ∣ cos(\theta)=\frac{a^Tb}{\vert a \vert·\vert b \vert} cos(θ)=abaTb
Pearson相似系数
ρ X Y = c o v ( X , Y ) σ X σ Y = E ∣ ( X − μ X ) ( Y − μ Y ) ∣ σ X σ Y = ∑ i = 1 n ( X i − μ X ) ( Y i − μ Y ) ∑ i = 1 n ( X i − μ X ) 2 ∑ i = 1 n ( Y i − μ Y ) 2 \rho_{XY}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}=\frac{E|(X-\mu_X)(Y-\mu_Y)|}{\sigma_X\sigma_Y}=\frac{\sum_{i=1}^n{(X_i-\mu_X)(Y_i-\mu_Y)}}{\sqrt{\sum_{i=1}^n(X_i-\mu_X)^2}{\sqrt{\sum_{i=1}^n(Y_i-\mu_Y)^2}}} ρXY=σXσYcov(X,Y)=σXσYE(XμX)(YμY)=i=1n(XiμX)2 i=1n(YiμY)2 i=1n(XiμX)(YiμY)
相对熵(K-L距离)
D ( p ∣ ∣ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x ) = E p ( x ) log ⁡ p ( x ) q ( x ) D(p||q)=\sum_x{p(x)\log{\frac{p(x)}{q(x)}}}=E_{p(x)}\log{\frac{p(x)}{q(x)}} D(pq)=xp(x)logq(x)p(x)=Ep(x)logq(x)p(x)

K-means算法(待补充)

密度最大值聚类

定义局部密度 ρ i \rho_i ρi
ρ = ∑ j χ ( d i j − d c ) , χ ( x ) = { 1 : x < 0 0 : o t h e r w i s e \rho=\sum_j\chi(d_{ij}-d_c) , \chi(x)=\left\{ \begin{aligned} 1 &: x < 0\\ 0 &: otherwise \end{aligned} \right. ρ=jχ(dijdc),χ(x)={10:x<0:otherwise
d c dc dc:截断距离

ρ i \rho_i ρi:到点i的距离(相似度)小于dc的点的个数

高局部密度点距离

δ i = m i n j : ρ j > ρ i ( d i j ) \delta_i=min_{j:\rho_j>\rho_i}(d_{ij}) δi=minj:ρj>ρi(dij)
在密度高于对象i的所有对象中,到对象i最近的距离

簇中心的识别
  • 有着比较大的局部密度$\rho_i$和很大的高局部密度点距离$\delta_i$的店为簇中心。
  • 高局部密度较大但局部密度较小的点是异常点。
可靠性:对边界和噪声的认
拉普拉斯矩阵及其性质

拉普拉斯矩阵 L = D − W L=D-W L=DW
f ′ L f = 1 2 ∑ i , j = 1 n w i j ( f i − f j ) 2 f'Lf=\frac{1}{2}\sum_{i,j=1}^n{w^{ij}(f_i-f_j)^2} fLf=21i,j=1nwij(fifj)2
L是对称半正定矩阵,有n个非负实特征值。性质:令G是权值非负的无向图,L的特征值0的重数K等于图G的连通分量数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值