Chapter 10 聚类

1 相似度度量的方法与相互联系

1.1 方法

闵可夫斯基Minkowski/欧式距离 dist(X,Y)=(\sum _{i=1}^{n} |x_{i}-y_{i}|^{p})^{\frac{1}{p}}

杰卡德相似系数(Jaccard)J(A,B)=\frac{|A\bigcap B|}{|A\bigcup B|}

余弦相似度cos(\theta )=\frac{a^{T}b}{|a|\cdot |b|}

Pearson相似系数\rho _{XY}=\frac{cov(X,Y)}{\sigma _{X}\sigma _{Y}}=\frac{E[(X-\mu _{X})(Y-\mu _{Y})]}{\sigma _{X}\sigma _{Y}}=\frac{\sum _{i=1}^{n}(X_{i}-\mu _{X})(Y_{i}-\mu _{Y})}{\sqrt{\sum _{i=1}^{n}(X_{i}-\mu _{X})^{2}}\sqrt{\sum _{i=1}^{n}(Y_{i}-\mu _{Y})^{2}}}

相对熵(K-L距离)D(p||q)=\sum _{x}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}\frac{p(x)}{q(x)}

Hellinger距离D_{\alpha }(p||q)=\frac{2}{1-\alpha ^{2}}(1-\int p(x)^{\frac{1+\alpha }{2}}q(x)^{\frac{1-\alpha }{2}}dx)

ps:假设(x_{1}-x_{2})最大,则\underset{p\rightarrow \infty }{lim}[(x_{1}-x_{2})^{p}+(y_{1}-y_{2})^{p}+(z_{1}-z_{2})^{p}]^{\frac{1}{p}}=\underset{p\rightarrow \infty }{lim}[(x_{1}-x_{2})(1+(\frac{(y_{1}-y_{2})}{(x_{1}-x_{2})})^{p}+(\frac{(z_{1}-z_{2})}{(x_{1}-x_{2})})^{p}]^{\frac{1}{p}}=(x_{1}-x_{2})

1.2 相互联系

余弦相似度与Pearson相似系数之间的关系:

n维向量x和y的夹角记做\theta,根据余弦定理,其余弦值为:cos(\theta )=\frac{x^{T}y}{|x|\cdot |y|}=\frac{\sum_{i=1}^{n}x_{i}y_{i}}{\sqrt{\sum_{i=1}^{n}x_{i}^{2}}\sqrt{\sum_{i=1}^{n}y_{i}^{2}}}

这两个向量的相关系数是:

\rho _{XY}=\frac{cov(X,Y)}{\sigma _{X}\sigma _{Y}}=\frac{E[(X-\mu _{X})(Y-\mu _{X})]}{\sigma _{X}\sigma _{Y}}=\frac{\sum_{i=1}^{n}(x_{i}-\mu_{X} )(y_{i}-\mu _{Y})}{​{\sqrt{\sum _{i=1}^{n}(X_{i}-\mu _{X})^{2}}\sqrt{\sum _{i=1}^{n}(Y_{i}-\mu _{Y})^{2}}} }

相关系数就是将x,y坐标向量各自平移到原点后的夹角余弦。

2 K-means聚类的思路和使用条件

2.1 定义

聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。是一种无监督学习。

2.2 思路

基本思想:对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好。

2.3 使用条件

给定一个有N个对象的数据集,构造数据的k个簇,k\leq n。满足下列条件:
(1)每一个簇至少包含一个对象

(2)每一个对象属于且仅属于一个簇

(3)将满足上述条件的k个簇称作一个合理划分 

2.4 算法

  •  k-Means将簇中所有点的均值作为新质心,但是若簇中含有异常点,会将导致均值偏离严重。因此,这时将簇中所有点的中位数作为新质心更为稳妥,这种聚类方式叫做k-Mediods聚类。
  • 初值的选择是人为选择。

2.5 k-means的公式化解释

2.6 聚类的衡量指标

  •  均一性:一个簇只包含一个类别的样本,则满足均一性。

  • 完整性:同类别样本被归类到相同簇中,则满足完整性。

  • PS:均一性和完整性相反,若均一性好则完整性就不太好;若完整性好则均一性就不太好。

2.7 k-means聚类方法的总结

优点:

  • 是解决聚类问题的一种经典算法,简单、快速
  • 对处理大数据集,该算法保持可伸缩性和高效率
  • 当簇近似为高斯分布时,它的效果较好

缺点:

  • 在簇的平均值可被定义的情况下才能使用,可能不适用于某些应用
  • 必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
  • 不适合于发现非凸形状的簇或者大小差别很大的簇
  • 对躁声和孤立点数据敏感

可作为其他聚类方法的基础算法,如谱聚类

2.8 聚类模型

(1) ARI:

数据集S共有N个元素,两个聚类结果分别是:X=\left \{ X_{1},X_{2},...,X_{r} \right \},Y=\left \{ Y_{1},Y_{2},...,Y_{s} \right \}

X和Y的元素个数为:a=\left \{ a_{1},a_{2},...,a_{r} \right \},b=\left \{ b_{1},b_{2},...,b_{s} \right \}

记:n_{ij}=|X_{i}\bigcap Y_{i}|

则:ARI=\frac{Index-EIndex}{MaxIndex-EIndex}=\frac{\sum_{i,j}C_{n_{ij}}^{2}-\frac{[\sum_{i}C_{b_{j}}^{2}\cdot \sum_{j}C_{b_{j}}^{2}]}{C_{n}^{2}}}{\frac{1}{2}\frac{[\sum_{i}C_{a_{i}}^{2}+\sum_{j}C_{b_{j}}^{2}]-[\sum_{i}C_{b_{j}}^{2}\cdot \sum_{j}C_{b_{j}}^{2}]}{C_{n}^{2}}}

(2) AMI

根据信息熵得到互信息/正则化信息:

MI(X,Y)=\sum_{i=1}^{r}\sum_{j=1}^{s}P(i,j)log\frac{p(i,j)}{P(i)P(j)}

NMI(X,Y)=\frac{MI(X,Y)}{\sqrt{H(X)H(Y)}}

X服从超几何分布,求的互信息的期望为:

E(MI) = \sum_{x} ^{} P(X=x) MI(X,Y) = \sum_{x=max(1,a_{i}+b_{i}-N)}^{min(a_{i},b_{i})}[MI\cdot \frac{a_{i}!b_{j}!(N-a_{i})!(N-b_{j})!}{N!x!(a_{i}-x)!(b_{j}-x)!(N-a_{i}-b_{j}+x)!}]

从而有:AMI(X,Y)=\frac{MI(X,Y)-E[MI(X,Y)]}{max\left \{ H(X),H(Y) \right \}-E[MI(X,Y)]}

2.9 轮廓系数

 

3 层次聚类的思路和方法

3.1 思路

层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。

分两种:

(1)凝聚的层次聚类:AGNES算法——一种自底向上的策略。首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。

(2)分裂的层次聚类:DIANA算法——采用自顶向下的策略。首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。

3.2 算法

4 密度聚类

4.1 介绍

指导思想——只要样本点的密度大于某阈值,则将该样本添加到最近的簇中。

优点——能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。但计算密度单元的计算复杂度更大,需要建立空间索引来降低计算量。

4.2 密度聚类模型

DBSCAN算法

 

 

 

密度最大值聚类

 

5  复习特征值

(1)实对称阵的特征值是实数

(2) 实对称阵不同特征值的特征向量正交

6 谱和谱聚类 

方阵作为线性算子,它的所有特征值的全体统称方阵的谱。

  • 方阵的谱半径为最大的特征值
  • 矩阵A的谱半径:(A^{T}A)的最大特征值

谱聚类是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据聚类的目的。

样本形成的矩阵W=(w_{ij}), 取第i行的权值相加作为di,即第i样本的度,组成矩阵D。求L前k小的特征值对应的特征向量所形成的u矩阵,对它做k均值,就得到了普聚类的最终结果。

6.1 拉普拉斯

6.2  谱聚类算法

  • 未正则拉普拉斯矩阵

  •  随机游走拉普拉斯矩阵
  •  对称拉普拉斯矩阵

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值