聚类

一、概述

1.数据挖掘对聚类分析方法的要求
  • 可伸缩性:指算法无论对于小数据还是发数据都应该有效。
  • 具有处理不同类型属性的能力:即可处理数值型数据,又可处理非数值型数据,既可以处理离散数据,又可以处理连续域内的数据。
  • 能够发现任意形状的聚类
  • 输入参数对领域知识的弱依赖性
  • 对输入记录顺序不敏感
  • 具有处理高维数据的能力
  • 可以处理噪声数据
  • 基于约束的聚类
  • 挖掘出来的信息是可以理解和可用的
2. 聚类在数据挖掘中的典型应用
  • 聚类分析可以作为其他算法的预处理步骤
  • 可以作为独立的工具来获得数据的分布情况
  • 可以完成孤立点挖掘

二、性能度量

聚类性能度量也称为聚类“有效性指标”。与监督学习性能度量作用相似。
我们希望聚类结果的簇内相似度高,而簇间相似度低。

聚类性能度量大致分为两类:

  • 将聚类结果与某个参考模型进行比较,称为外部指标
  • 直接考察聚类结果而不用任何参考模型,称为内部指标
1. 外部指标

将聚类结果和某个参考模型进行比较。对数据集中的样本两两配对,则在参考模型簇中和实际划分簇中,可以呈现四种结果:

  1. 参考簇和划分簇中都属于同一簇;
  2. 参考簇中不属于同一簇,实际划分属于同一簇;
  3. 参考簇中属于同一簇,实际划分不属于同一簇;
  4. 参考簇和实际划分都不属于同一簇。

分别将上述四种情况的个数设为 a,b,c,d 。则a + b + c + d = m(m+1)/2 (m为样本个数)

  • Jaccard系数(JC系数):
    在这里插入图片描述
  • FM指数(FMI):
    在这里插入图片描述
  • Rand指数(RI):
    在这里插入图片描述
  • 上述指标的结果值均在 [0,1] 区间,值越大越好。
2. 内部指标

直接考察聚类结果而不用任何参考模型
考虑聚类结果的簇划分 C = {C1,C2,C3…Ck},定义
在这里插入图片描述
基于上式导出常用聚类性能度量内部指标:
在这里插入图片描述

三、距离计算

  • 上述公式 dist() ,如果为一个距离度量,则需满足一些基本性质:

    • 非负性
    • 对称性:dist(x, y)=dist(y, x)
    • 同一性:dist(x,y)=0 ,x = y
    • 直递性:dist(x,y) <= dist(x,z) + dist(z,y)
  • 最常用的为“闵可夫斯基距离”:
    在这里插入图片描述

    • 当p = 1时,为曼哈顿距离
    • 当p = 2时,为欧式距离
  • 属性划分

    • 连续属性:在定义域上有无穷多个取值
    • 离散属性:在定义域上有有限个取值
      1. 有序属性:能够在属性值上计算距离,闵可夫斯基距离可用于有序属性
      2. 无序属性:不能在属性值上计算距离,采用VDM(Value Difference Metric):在无序属性u上离散值a和b之间的VDM距离可表示为:
      在这里插入图片描述
      3.将闵可夫斯基距离和VDM结合可处理混合属性:在这里插入图片描述
  • 非度量距离:一些相似度度量的距离不满足距离度量的所有性质,尤其是直递性;这样的距离称为非度量距离,可通过“距离度量学习”来实现。

四、原型聚类

此类算法假设聚类结构能通过一组原型刻画。通常先对原型初始化,再对原型进行迭代更新求解。不同原型表示、更新方法产生不同算法
1.K均值算法
K均值算法针对聚类所得的簇划分C = {C1,C2...Ck}最小化平方误差。

在这里插入图片描述
上述式中,μi 是簇Ci的均值向量。直观来看,一定程度上刻画了簇内样本围绕簇均值向量的紧密程度;E越小,簇内样本相似度越高。

在这里插入图片描述

  • 优点:
    1. 简单,快速的聚类算法
    2. 对于大数据集,保持可伸缩性和高效率
    3. 当簇近似为高斯分布时,效果较好
  • 缺点:
    1.在簇的平均值可被的定义的情况下才能使用,可能不适合某些情况
    2.必须给出K(聚类的簇数目),并且初始值敏感,对于不同的初始值,可能导致不同的结果。
    3. 不适合发现非凹型簇或者差别很大的簇
    4. 对噪声点和孤立点比较敏感
2. 学习向量量化(LVQ)
与K均值算法类似,学习向量量化(Learning Vector Quantization ,LVQ)是找到一组原型向量来刻画聚类结构,但LVQ假设样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。

在这里插入图片描述

  • 算法第一行首先对原型向量进行初始化,例如对第q个簇可从类别标记为 tq的样本中随机选取一个作为原型向量。
  • 算法第2-12行对原型向量进行迭代优化。每一轮迭代中选取一个有标记的训练样本,找出与其距离最近的原型向量,并根据两者的类别标记来是否一致来进行相应的更新。
  • 算法第12行为算法停止条件
  • 算法的关键是6-10行,即如何更新原型向量;详细解释:看详细更新原型变量请戳!
3. 高斯混合聚类

空空如也

五、密度聚类

密度聚类又称基于密度的聚类,此类算法假设聚类结构能通过样本分布的紧密程度确定。
通常该类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断拓展聚类簇以获得最终的聚类结果。
1. DBSCAN(Density-Based Clustering)
  • 定义e-邻域:离目标距离不大于e的样本
  • 核心对象:若在e-邻域中至少包含MinPts个样本,则该对象为核心对象
  • 密度直达:若目标对象在其e-邻域中,且该对象本身为核心对象,则成该对象与目标对象之间密度直达
  • 密度可达:对目标1和目标k,存在目标1,目标2…目标k两两密度直达,则称目标1和目标k密度可达
  • 密度相连:对目标1和目标3,都存在目标2可达目标1,目标2可达目标3,则目标1和3密度相连
  • 基于以上概念,DBSCAN将簇定义为,由密度可达关系导出的最大密度相连的样本集合。DBSCAN算法先从数据集中选择一个核心对象作为种子,再由此出发确定相应的聚类簇,直到
    所有的核心对象均被访问过为止。
    在这里插入图片描述

六、层次聚类

层次聚类试图在不同层次对数据集进行划分,从而形成数据结构。
数据集的划分可采用自底向上的聚合策略,也可采用自顶向下的分拆策略。
1. AGNES
  • AGNES是一种自底向上聚合的层次聚类算法。先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,并不断重复该过程直到达到预设的聚类簇个数。
  • 聚类簇之间的距离计算
    1. 最小距离:两个簇之间的最小距离
    2. 最大距离:两个簇之间的最大距离
    3. 平均距离:两个簇之间的平均距离

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值