文章目录
一、概述
1.数据挖掘对聚类分析方法的要求
- 可伸缩性:指算法无论对于小数据还是发数据都应该有效。
- 具有处理不同类型属性的能力:即可处理数值型数据,又可处理非数值型数据,既可以处理离散数据,又可以处理连续域内的数据。
- 能够发现任意形状的聚类
- 输入参数对领域知识的弱依赖性
- 对输入记录顺序不敏感
- 具有处理高维数据的能力
- 可以处理噪声数据
- 基于约束的聚类
- 挖掘出来的信息是可以理解和可用的
2. 聚类在数据挖掘中的典型应用
- 聚类分析可以作为其他算法的预处理步骤
- 可以作为独立的工具来获得数据的分布情况
- 可以完成孤立点挖掘
二、性能度量
聚类性能度量也称为聚类“有效性指标”。与监督学习性能度量作用相似。
我们希望聚类结果的簇内相似度高,而簇间相似度低。
聚类性能度量大致分为两类:
- 将聚类结果与某个参考模型进行比较,称为外部指标
- 直接考察聚类结果而不用任何参考模型,称为内部指标
1. 外部指标
将聚类结果和某个参考模型进行比较。对数据集中的样本两两配对,则在参考模型簇中和实际划分簇中,可以呈现四种结果:
- 参考簇和划分簇中都属于同一簇;
- 参考簇中不属于同一簇,实际划分属于同一簇;
- 参考簇中属于同一簇,实际划分不属于同一簇;
- 参考簇和实际划分都不属于同一簇。
分别将上述四种情况的个数设为 a,b,c,d 。则a + b + c + d = m(m+1)/2 (m为样本个数)
- Jaccard系数(JC系数):
- FM指数(FMI):
- Rand指数(RI):
- 上述指标的结果值均在 [0,1] 区间,值越大越好。
2. 内部指标
直接考察聚类结果而不用任何参考模型
考虑聚类结果的簇划分 C = {C1,C2,C3…Ck},定义
基于上式导出常用聚类性能度量内部指标:
三、距离计算
-
上述公式 dist() ,如果为一个距离度量,则需满足一些基本性质:
- 非负性
- 对称性:dist(x, y)=dist(y, x)
- 同一性:dist(x,y)=0 ,x = y
- 直递性:dist(x,y) <= dist(x,z) + dist(z,y)
-
最常用的为“闵可夫斯基距离”:
- 当p = 1时,为曼哈顿距离
- 当p = 2时,为欧式距离
-
属性划分
- 连续属性:在定义域上有无穷多个取值
- 离散属性:在定义域上有有限个取值
1. 有序属性:能够在属性值上计算距离,闵可夫斯基距离可用于有序属性
2. 无序属性:不能在属性值上计算距离,采用VDM(Value Difference Metric):在无序属性u上离散值a和b之间的VDM距离可表示为:
3.将闵可夫斯基距离和VDM结合可处理混合属性:
-
非度量距离:一些相似度度量的距离不满足距离度量的所有性质,尤其是直递性;这样的距离称为非度量距离,可通过“距离度量学习”来实现。
四、原型聚类
此类算法假设聚类结构能通过一组原型刻画。通常先对原型初始化,再对原型进行迭代更新求解。不同原型表示、更新方法产生不同算法
1.K均值算法
K均值算法针对聚类所得的簇划分C = {C1,C2...Ck}最小化平方误差。
上述式中,μi 是簇Ci的均值向量。直观来看,一定程度上刻画了簇内样本围绕簇均值向量的紧密程度;E越小,簇内样本相似度越高。
- 优点:
1. 简单,快速的聚类算法
2. 对于大数据集,保持可伸缩性和高效率
3. 当簇近似为高斯分布时,效果较好 - 缺点:
1.在簇的平均值可被的定义的情况下才能使用,可能不适合某些情况
2.必须给出K(聚类的簇数目),并且初始值敏感,对于不同的初始值,可能导致不同的结果。
3. 不适合发现非凹型簇或者差别很大的簇
4. 对噪声点和孤立点比较敏感
2. 学习向量量化(LVQ)
与K均值算法类似,学习向量量化(Learning Vector Quantization ,LVQ)是找到一组原型向量来刻画聚类结构,但LVQ假设样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。
- 算法第一行首先对原型向量进行初始化,例如对第q个簇可从类别标记为 tq的样本中随机选取一个作为原型向量。
- 算法第2-12行对原型向量进行迭代优化。每一轮迭代中选取一个有标记的训练样本,找出与其距离最近的原型向量,并根据两者的类别标记来是否一致来进行相应的更新。
- 算法第12行为算法停止条件
- 算法的关键是6-10行,即如何更新原型向量;详细解释:看详细更新原型变量请戳!
3. 高斯混合聚类
空空如也
五、密度聚类
密度聚类又称基于密度的聚类,此类算法假设聚类结构能通过样本分布的紧密程度确定。
通常该类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断拓展聚类簇以获得最终的聚类结果。
1. DBSCAN(Density-Based Clustering)
- 定义e-邻域:离目标距离不大于e的样本
- 核心对象:若在e-邻域中至少包含MinPts个样本,则该对象为核心对象
- 密度直达:若目标对象在其e-邻域中,且该对象本身为核心对象,则成该对象与目标对象之间密度直达
- 密度可达:对目标1和目标k,存在目标1,目标2…目标k两两密度直达,则称目标1和目标k密度可达
- 密度相连:对目标1和目标3,都存在目标2可达目标1,目标2可达目标3,则目标1和3密度相连
- 基于以上概念,DBSCAN将簇定义为,由密度可达关系导出的最大密度相连的样本集合。DBSCAN算法先从数据集中选择一个核心对象作为种子,再由此出发确定相应的聚类簇,直到
所有的核心对象均被访问过为止。
六、层次聚类
层次聚类试图在不同层次对数据集进行划分,从而形成数据结构。
数据集的划分可采用自底向上的聚合策略,也可采用自顶向下的分拆策略。
1. AGNES
- AGNES是一种自底向上聚合的层次聚类算法。先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,并不断重复该过程直到达到预设的聚类簇个数。
- 聚类簇之间的距离计算
1. 最小距离:两个簇之间的最小距离
2. 最大距离:两个簇之间的最大距离
3. 平均距离:两个簇之间的平均距离