以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘:理论与算法》,本笔记仅用于个人学习。如有错误,感谢指正。
一、聚类简介
- 对数据集划分的簇应满足:簇内距离尽量小,簇间距离尽量大。
- 聚类属于无监督学习:无标签,且聚类结果没有对错之分。
- 应用:市场营销对客户划分、地震对区域划分、社区发现、色块聚类做图像分割等
- 要求:需要处理任意形状的数据、能处理噪点和离群点等
- 坐标变换的选取、标准化的与否等预处理都可能会造成不同的结果!
二、K-Means算法
- 太常用了,不细写过程了。
- 时间复杂度:O(tkn),t为迭代次数,k为中心点数(通常不会很大),n为数据点个数。
- 反映了最大期望的优化思想。
- 优点: 对球形、高斯数据的分簇效果好;收敛非常快;简单。
- 缺点: k值不能预先判断;可能会形成局部最优点(迭代的算法都会遇到该问题,可以通过重新初始化随机点来避免该问题);噪点等异常点造成的影响大;球形以外的簇形效果不好。
三、Sequential Leader聚类
- 原理类似K-Means。
- 时间复杂度:O(kn)
- 对计算过程的理解:每个新来的点和原来类别的距离若低于阈值,则纳入原来的类别,否则认为为新类别。
- 优点:不需要迭代,非常简单;可以处理流数据,因为它是一个一个计算的;不需要K值。
- 缺点:流入数据的顺序对结果有影响;局部最优。
四、基于模型的聚类:高斯混合模型
- 基于数学模型的算法结果更准确,计算将得到属于簇类的概率是多少,数据将属于概率最高的簇。
- 决定高斯函数的两个参数:μ、σ²
- 期望最大(EM):模型参数与隐含参数反复迭代得到结果(K-Means也用到了这种思路)。
- 优点:更精确,还可以将模型拿来生成数据(这才是真正掌握数据的特征)。
- 缺点:只适用于基本符合高斯分布的数据;局部最优。
五、基于密度的聚类:DBSCAN
- 利用连通性/可达性:簇内能有一条路径到达。
- 理解:直接密度可达则将被纳为一个簇。
- 涉及的参数:Epsilon(在半径内的点将直接密度可达;该值越大,决定最终簇数可能越少)、Minpoint(每个簇内的最少点,簇内的点数若少于该值,认为无法形成簇,该簇的点被视为噪声点)。
- 优点:可处理非规则图形(!!!),能够实现降噪处理。
- 缺点:难以确定上述的两个参数的值。
六、层次聚类
- 基于最小/最大距离
- 优点:任意多簇。
- 缺点:距离计算方法不同,聚类的结果也将不同。
七、聚类算法结果的评价
- 无监督学习无法说明聚类结果的对错,只能对结果的**内聚性(簇内)和耦合性(簇间)**进行评价!
- 评价指标1——Je,计算公式如下:
其中,mi:
je越小,说明越紧密,该指标反映了内聚性,但没有考虑耦合性(簇间)。 - 轮廓系数:
该参数同时考虑了内聚性和耦合性!