一、概念
将N个样本映射到K个簇中,每个簇至少有一个样本
二、聚类思路
先给定K个划分,迭代样本与簇的隶属关系,每次都比前一次好一些,
迭代若干次 就能得到比较好的结果
三、聚类用途
1、知识发现 发现事物之间的潜在关系
2、异常值检测
3、特征提取 数据压缩的例子
四、K-means
求距离和相似的 方法:数据间的相似度求解方法_宠乖仪的博客-CSDN博客
1、K-means算法步骤
-
选择K个初始的簇中心
-
逐个计算每个样本到中心的距离, 将样本归属到距离最小的那个簇中心的簇中
-
每个簇内部计算平均值 更新簇中心
-
开始迭代
2、K-means的特点
-
优点:
-
简单,效果不错
-
-
缺点
- 对异常值敏感
-
对初始值敏感
-
对某些分布聚类效果不好
3、K-means算法的优化算法
3.1 K-Mediods
- 计算新的簇中心的时候不再选择均值,而是选择中位数
-
抗噪能力得到加强
3.2 二分K-means
- K-means的损失函
- 每个点到中心点的位置 MSE
- 分别计算四个簇的mse,会发现有两个簇的MSE很小,一个簇的MSE很大
-
选择合并簇中心点比较近,MSE很小簇 切分簇中心离其他簇中心比较远,MSE比较大的簇,重新进行K-means聚类
3.3 K-means++
-
K-means选择一个好的初始中心点非常重要