6.2K-Means

最新推荐文章于 2024-08-20 13:13:08 发布

Vivian_Congcong

最新推荐文章于 2024-08-20 13:13:08 发布

阅读量322

点赞数 7

分类专栏：数据挖掘笔记文章标签：数据挖掘

本文链接：https://blog.csdn.net/Vivian_Congcong/article/details/134643333

版权

数据挖掘笔记专栏收录该内容

71 篇文章 0 订阅

订阅专栏

本文介绍了K-Means聚类算法，包括其原理（通过计算与同一组和不同组的平均距离），评价指标Silhouette，以及初始质心选择对结果的影响。算法的优点包括快速收敛和规则不相交簇，但对k值确定、局部最优和噪声敏感。此外，文中还提及了顺序前导聚类方法，它适合处理流数据且无需预先指定k值，只需设置阈值。

摘要由CSDN通过智能技术生成

Evaluation
- 假设所有数据都呈球状分布，则使用这个公式效果较好
- 解释
  - 有些直观上不合理的数据聚集方式，J值反而可能更小
Silhouette
- 好处：是一种让我们可以直观上看到或解释聚类效果的函数
- 解释
  - 对于每个样本点，他要算出一个值来，为了算这个值而定义了a、b两个数
  - a：我与和我同组的人的平均距离
  - b：我与不和我一个组的人的平均距离（如果有c组，再算一下和c组的平均距离，并取其中最小的）
- 如何使用
  - 每一个点都是一条横着的蓝色的线
K-Means
- 解释
  - 使用高斯函数，放在不同的位置，采样几百个点，即可生成图中这种数据分布
  - 生成了五个红色的点，试图用每个点代表一个簇（目标是成为这个簇的中心点）
  - 根据几个红色的点连线的垂直平分线把空间分成几个区域，每个区域中只包含一个红点
  - 每一个区域中的所有蓝点到本区域中的红点的距离都是最小的
  - 重新计算中心点：绿色的点是当前区域范围内的中心点将红点更新为绿点的位置
  - 迭代更新红点位置，直到更新点位置不再变化
  - 最后返回5个中心点
Comments on K-Means
- 解释
  - 优点
    - regular disjoint clusters：规则不相交簇
    - converges relatively fast：收敛速度相对较快（一般5、6步之内就可以收敛）
  - 算法复杂度：O(t·k·n)
    - t：迭代次数
    - k：中心点的个数
    - n：数据点的个数
  - 缺点
    - k值如何确定
    - 可能收敛到局部最优点
    - 对噪点敏感（因为用了均值，中位数会好一些）
    - 不适用于奇形怪状的数据分布，一般还是适用于球形分布
The Influence of Initial Centroids(初始质心的影响)
- 解释
  - 初始点选的不好，导致没有得到真正意义上的最优解
- 解决
  - 尝试不同的初始值，得到不同的聚类结果，从中挑选满意的结果
Sequential Leader Clustering(顺序前导聚类)
- 解释
  - 每个点进房间后都自立门户
  - 新来的点要和原来的簇的中心点算一下距离，若他们两个的距离特别近，小于我设定的阈值，则两个点合成一类，并重新计算本簇的中心点
  - 如果新来的点和谁都不接近，则再次自立门户
- 好处
  - 与K-Means不同的是，它会一个一个的处理数据（处理流数据），不需要迭代
- 基本原理
  - 不需要确定k值，需要设置一个阈值Threshold

Vivian_Congcong

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
6.2K-Means

Evaluation 假设所有数据都呈球状分布，则使用这个公式效果较好解释有些直观上不合理的数据聚集方式，J值反而可能更小 Silhouette 好处：是一种让我们可以直观上看到或解释聚类效果的函数解释对于每个样本点，他要算出一个值来，为了算这个值而定义了a、b两个数 a：我与和我同组的人的平均距离 b：我与不和我一个组的人的平均距离（如果有c组，再算一下和c组的平均距离，并取其中最小的）如何使用每一个点都是一条横着的蓝色
复制链接

扫一扫