数据挖掘学习笔记6-聚类

最新推荐文章于 2022-09-06 23:28:20 发布

irony_202

最新推荐文章于 2022-09-06 23:28:20 发布

阅读量648

点赞数

文章标签：聚类数据挖掘机器学习

本文链接：https://blog.csdn.net/irony_202/article/details/122864704

版权

一、分割模式
1.K-Means
为将数据分为k个簇，随机生成K个点，用这k个点将空间划分为k个区域，再将k个点移至各自区域的中心点，以此迭代，直至中心点不再变化。
特点：
1.简单，收敛快，一般只需迭代5次左右即可收敛（复杂度为O（tkn））
2.仅适用于数据簇相隔较远，类球形数据簇
3.容易掉入局部最优解，受初始值的影响较大，需不断尝试不同初始值
4.k值比较难确定
5.对噪点敏感（平均值）
2.Sequential Leader Clustering
用于处理数据流，每个数据只处理一次，不具体确定分为多少类，将第一个数据点分为一类，后续每个点根据到现有类的中心距离是否大于阈值（给定）来确定分给哪个类（后更新该类的中心点）或者自成一类。
特点：阈值不好确定。
二、基于模型聚类
1.混合高斯模型（gaussian mixture）
f（x）=Σαig（x，μi，Σi），αi≥0且Σαi = 1
EM算法（期望最大化算法）：若已知样本值需求一个模型的参数，可先假设一个参数初值，后用贝叶斯算出每个样本的期望值，再用样本期望值加权优化模型参数，以此迭代求出模型参数。
注意：EM算法也会有局部最优点的问题，需采用不同初值多次尝试。
三、基于密度的聚类
DBSCAN：将样本点分为三类：1.核心点 2.边缘点 3.噪点
每一个簇从核心点开始不断膨胀将连通的样本收纳进自己的簇；噪点会被过滤掉
四、基于层次型聚类
Agglomerative methods（聚合模型）：
1.一开始每一个样本均为一个簇
2.每个簇两两比较，找到距离最小的两个簇，进行合并
循环第二步可得到1-n（样本点）层模型
簇间距离可根据需要定义，会影响聚类结果。