【数据挖掘】K-Means 二维数据聚类分析 ( K-Means 迭代总结 | K-Means 初始中心点选择方案 | K-Means 算法优缺点 | K-Means 算法变种 )

最新推荐文章于 2024-06-28 10:39:17 发布

韩曙亮

最新推荐文章于 2024-06-28 10:39:17 发布

阅读量7k

点赞数 7

分类专栏：数据挖掘文章标签： K-Means 数据挖掘聚类聚类分析曼哈顿距离

本文链接：https://blog.csdn.net/shulianghan/article/details/105904698

版权

数据挖掘专栏收录该内容

54 篇文章 43 订阅

订阅专栏

文章目录

K-Means 二维数据聚类分析数据样本及聚类要求

数据样本及聚类要求 :

① 数据样本 : 数据集样本为 $6$ 个点 , $A_1 ( 2 , 4 )$ , $A_2 ( 3 , 7 )$ , $B_1 ( 5 , 8 )$ , $B_2 ( 9 , 5 )$ , $C_1 ( 6 , 2 )$ , $C_2 ( 4 , 9 )$ ;

② 聚类个数 : 分为 $3$ 个聚类 ;

③ 距离计算方式 : 使用曼哈顿距离 , 计算样本之间的相似度 ; 曼哈顿距离的计算方式是 两个维度的数据差 的 绝对值 相加 ;

④ 中心点初始值 : 选取 $A_1 , B_1 , C_1$ 三个样本为聚类的初始值 , 这是实点 ; 如果选取非样本的点作为初始值 , 就是虚点 ;

⑤ 要求 : 使用 K-Means 算法迭代 $2$ 次 ;

⑥ 中心值精度 : 计算过程中中心值小数向下取整 ;

二维数据曼哈顿距离计算

1 . 曼哈顿距离公式如下 :

$x_{i1} - x_{j1} | + | x_{i2} - x_{j2} | + \cdots + | x_{ip} - x_{jp} |$

$d (i, j)$ 表示两个样本之间的距离 , 曼哈顿距离 ;

$p$ 表示属性的个数 , 每个样本有 $p$ 个属性 ;

$i$ 和 $j$ 表示两个样本的索引值 , 取值范围是 $\{1 , 2, \cdots , q\}$ ;

$x_{ip} - x_{jp}$ 表示两个样本第 $p$ 个属性值的差值 , $x_{i1} - x_{j1}$ 表示两个样本第 $1$ 个属性值的差值 , $x_{i2} - x_{j2}$ 表示两个样本第 $2$ 个属性值的差值 ;

2 . 曼哈顿距离图示 : 曼哈顿的街道都是横平竖直的 , 从 $A$ 点到 $B$ 点 , 一般就是其 $x$ 轴坐标差加上其 $y$ 轴坐标差 , 即 $x + y$ ;

在这里插入图片描述

3 . 本题目中的样本距离计算示例 : 两个样本的曼哈顿距离是 $x$ 属性差的绝对值 , 加上 $y$ 属性差的绝对值 , 之和 ;

计算 $A_1 ( 2 , 4 )$ , $A_2 ( 3 , 7 )$ 的距离 :

$d(A_1 , A_2) = | 2 - 3 | + |4 - 7| = 4$

$A_1$ 样本与 $A_2$ 样本之间的距离是 $4$ ;

K-Means 算法步骤

K-Means 算法步骤 : 给定数据集 $X$ , 该数据集有 $n$ 个样本 , 将其分成 $K$ 个聚类 ;

① 中心点初始化 : 为 $K$ 个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;

② 计算距离 : 计算 $n$ 个对象与 $K$ 个中心点的距离 ; ( 共计算 $\times K$ 次 )

③ 聚类分组 : 每个对象与 $K$ 个中心点的值已计算出 , 将每个对象分配给距离其最近的中心点对应的聚类 ;

④ 计算中心点 : 根据聚类分组中的样本 , 计算每个聚类的中心点 ;

⑤ 迭代直至收敛 : 迭代执行 ② ③ ④ 步骤 , 直到 聚类算法收敛 , 即 中心点和分组经过多少次迭代都不再改变 , 也就是本次计算的中心点与上一次的中心点一样 ;

第一次迭代 : 步骤 ( 1 ) 中心点初始化

初始化中心点 : $3$ 个聚类的中心点 , 在题目中已经给出 ;

① 聚类 $1$ 中心点 : $A_1 ( 2 , 4 )$ ;

② 聚类 $2$ 中心点 : $B_1 ( 5 , 8 )$ ;

③ 聚类 $3$ 中心点 : $C_1 ( 6 , 2 )$ ;

第一次迭代 : 步骤 ( 2 ) 计算距离

距离计算次数 : 这里需要计算所有的样本 , 与所有的中心点的距离 , 每个样本都需要计算与 $3$ 个中心点的距离 , 共需要计算 $\times 3 = 18$ 次 ;

数据样本 : $A_1 ( 2 , 4 )$ , $A_2 ( 3 , 7 )$ , $B_1 ( 5 , 8 )$ , $B_2 ( 9 , 5 )$ , $C_1 ( 6 , 2 )$ , $C_2 ( 4 , 9 )$

1 . 计算 $A_1 ( 2 , 4 )$ 与三个中心点 ${ A_1 , B_1 , C_1 \}$ 之间的距离 :

① $A_1 ( 2 , 4 )$ 与 $A_1 ( 2 , 4 )$ 的距离 : ( 最小 )

$d(A_1 , A_1) = | 2-2 | + | 4-4 | = 0$

② $A_1 ( 2 , 4 )$ 与 $B_1 ( 5 , 8 )$ 的距离 :

$d(A_1 , B_1) = | 2-5 | + | 4-8 | = 7$

③ $A_1 ( 2 , 4 )$ 与 $C_1 ( 6 , 2 )$ 的距离 :

$d(A_1 , C_1) = | 2-6 | + | 4-2 | = 6$

$A_1 ( 2 , 4 )$ 与 $A_1 ( 2 , 4 )$ 的距离最小 ;

2 . 计算 $A_2 ( 3 , 7 )$ 与三个中心点 ${ A_1 , B_1 , C_1 \}$ 之间的距离 :

① $A_2 ( 3 , 7 )$ 与 $A_1 ( 2 , 4 )$ 的距离 :

$d(A_2 , A_1) = | 3-2 | + | 7-4 | = 4$

② $A_2 ( 3 , 7 )$ 与 $B_1 ( 5 , 8 )$ 的距离 : ( 最小 )

$d(A_2 , B_1) = | 3-5 | + | 7-8 | = 3$

③ $A_2 ( 3 , 7 )$ 与 $C_1 ( 6 , 2 )$ 的距离 :

$d(A_2 , C_1) = | 3-6 | + | 7-2 | = 8$

$A_2 ( 3 , 7 )$ 与 $B_1 ( 5 , 8 )$ 的距离最小 ;

3 . 计算 $B_1 ( 5 , 8 )$ 与三个中心点 ${ A_1 , B_1 , C_1 \}$ 之间的距离 :

① $B_1 ( 5 , 8 )$ 与 $A_1 ( 2 , 4 )$ 的距离 :

$d(B_1 , A_1) = | 5 -2 | + | 8 -4 | = 7$

② $B_1 ( 5 , 8 )$ 与 $B_1 ( 5 , 8 )$ 的距离 : ( 最小 )

$d(B_1 , B_1) = | 5 -5 | + | 8 -8 | = 0$

③ $B_1 ( 5 , 8 )$ 与 $C_1 ( 6 , 2 )$ 的距离 :

$d(B_1 , C_1) = | 5 -6 | + | 8 -2 | = 7$

$B_1 ( 5 , 8 )$ 与 $B_1 ( 5 , 8 )$ 的距离最小 ;

4 . 计算 $B_2 ( 9 , 5 )$ 与三个中心点 ${ A_1 , B_1 , C_1 \}$ 之间的距离 :

① $B_2 ( 9 , 5 )$ 与 $A_1 ( 2 , 4 )$ 的距离 :

$d(B_2 , A_1) = | 9 -2 | + | 5 -4 | = 8$

② $B_2 ( 9 , 5 )$ 与 $B_1 ( 5 , 8 )$ 的距离 :

$d(B_2 , B_1) = | 9 -5 | + | 5 -8 | = 7$

③ $B_2 ( 9 , 5 )$ 与 $C_1 ( 6 , 2 )$ 的距离 : ( 最小 )

$d(B_2 , C_1) = | 9 -6 | + | 5 -2 | = 6$

$B_2 ( 9 , 5 )$ 与 $C_1 ( 6 , 2 )$ 的距离最小 ;

5 . 计算 $C_1 ( 6 , 2 )$ 与三个中心点 ${ A_1 , B_1 , C_1 \}$ 之间的距离 :

① $C_1 ( 6 , 2 )$ 与 $A_1 ( 2 , 4 )$ 的距离 :

$d(C_1 , A_1) = | 6 -2 | + | 2 -4 | = 6$

② $C_1 ( 6 , 2 )$ 与 $B_1 ( 5 , 8 )$ 的距离 :

$d(C_1 , B_1) = | 6 -5 | + | 2 -8 | = 7$

③ $C_1 ( 6 , 2 )$ 与 $C_1 ( 6 , 2 )$ 的距离 : ( 最小 )

$d(C_1 , C_1) = | 6 -6 | + | 2 -2 | = 0$

$C_1 ( 6 , 2 )$ 与 $C_1 ( 6 , 2 )$ 的距离最小 ;

6 . 计算 $C_2 ( 4 , 9 )$ 与三个中心点 ${ A_1 , B_1 , C_1 \}$ 之间的距离 :

① $C_2 ( 4 , 9 )$ 与 $A_1 ( 2 , 4 )$ 的距离 :

$d(C_2 , A_1) = | 4 -2 | + | 9 -4 | = 7$

② $C_2 ( 4 , 9 )$ 与 $B_1 ( 5 , 8 )$ 的距离 : ( 最小 )

$d(C_2 , B_1) = | 4 -5 | + | 9 -8 | = 2$

③ $C_2 ( 4 , 9 )$ 与 $C_1 ( 6 , 2 )$ 的距离 :

$d(C_2 , C_1) = | 4 -6 | + | 9 -2 | = 9$

$C_2 ( 4 , 9 )$ 与 $B_1 ( 5 , 8 )$ 的距离最小 ;

8 . 生成距离表格 : 将上面计算的内容总结到如下表格中 ;

	$A_1 ( 2 , 4 )$	$A_2 ( 3 , 7 )$	$B_1 ( 5 , 8 )$	$B_2 ( 9 , 5 )$	$C_1 ( 6 , 2 )$	$C_2 ( 4 , 9 )$
$A_1 ( 2 , 4 )$	$0$	$4$	$7$	$8$	$6$	$7$
$B_1 ( 5 , 8 )$	$7$	$3$	$0$	$7$	$7$	$2$
$C_1 ( 6 , 2 )$	$6$	$8$	$7$	$6$	$0$	$9$

第一次迭代 : 步骤 ( 3 ) 聚类分组

1 . 聚类分组 : 根据计算出的 , 每个样本与 $3$ 个中心点的距离 , 将样本划分到距离该样本最近的中心点对应的分组中 ;

	$A_1 ( 2 , 4 )$	$A_2 ( 3 , 7 )$	$B_1 ( 5 , 8 )$	$B_2 ( 9 , 5 )$	$C_1 ( 6 , 2 )$	$C_2 ( 4 , 9 )$
$A_1 ( 2 , 4 )$	$0$	$4$	$7$	$8$	$6$	$7$
$B_1 ( 5 , 8 )$	$7$	$3$	$0$	$7$	$7$	$2$
$C_1 ( 6 , 2 )$	$6$	$8$	$7$	$6$	$0$	$9$

2 . 根据表格中的距离 , 为每个样本分组 :

① $A_1 ( 2 , 4 )$ 距离 $A_1 ( 2 , 4 )$ 中心点最近 , 划分到聚类 $1$ 中 ;

② $A_2 ( 3 , 7 )$ 距离 $B_1 ( 5 , 8 )$ 中心点最近 , 划分到聚类 $2$ 中 ;

③ $B_1 ( 5 , 8 )$ 距离 $B_1 ( 5 , 8 )$ 中心点最近 , 划分到聚类 $2$ 中 ;

④ $B_2 ( 9 , 5 )$ 距离 $C_1 ( 6 , 2 )$ 中心点最近 , 划分到聚类 $3$ 中 ;

⑤ $C_1 ( 6 , 2 )$ 距离 $C_1 ( 6 , 2 )$ 中心点最近 , 划分到聚类 $3$ 中 ;

⑥ $C_2 ( 4 , 9 )$ 距离 $B_1 ( 5 , 8 )$ 中心点最近 , 划分到聚类 $2$ 中 ;

3 . 最终的聚类分组为 :

① 聚类 $1$ : ${ A_1 \}$

② 聚类 $2$ : ${ A_2 , B_1 , C_2 \}$

③ 聚类 $3$ : ${ B_2 , C_1 \}$

第二次迭代 : 步骤 ( 1 ) 中心点初始化

$A_1 ( 2 , 4 )$ , $A_2 ( 3 , 7 )$ , $B_1 ( 5 , 8 )$ , $B_2 ( 9 , 5 )$ , $C_1 ( 6 , 2 )$ , $C_2 ( 4 , 9 )$

1 . 聚类 $1$ 中心点计算 : 计算 ${ A_1 ( 2 , 4 ) \}$ 中心点

$聚类 1 中心点 = (2, 4)$

2 . 聚类 $2$ 中心点计算 : 计算 ${ A_2 ( 3 , 7 ) , B_1 ( 5 , 8 ) , C_2( 4 , 9 ) \}$ 中心点

$\frac{3 + 5 + 4}{3} , \frac{7 + 8 + 9}{3}) = ( 4 , 8 )$

3 . 聚类 $3$ 中心点计算 : 计算 ${ B_2( 9 , 5 ) , C_1 ( 6 , 2 ) \}$ 中心点

$\frac{9 + 6 }{2} , \frac{5 + 2}{2}) = ( 7 , 3 )$

第二次迭代 : 步骤 ( 2 ) 计算距离

计算 $6$ 个点 , 到 $3$ 个中心点的距离 , $3$ 个中心点分别是 ${ ( 2 , 4 ) , ( 4 , 8 ) , ( 7 , 3 ) \}$ , 直接将两个点的曼哈顿距离填在对应的表格中 ;

如 : 第 $1$ 行 , 第 $2$ 列 :

$A_1 ( 2 , 4 )$ 样本与 $(4, 8)$ 聚类 $2$ 中心点的曼哈顿距离是 $6$ , 计算过程如下 :

$A_1 ( 2 , 4 ) 与 ( 4 , 8 ) 两点曼哈顿距离 = | 2 - 4 | + | 4 - 8 | = 6$

	$A_1 ( 2 , 4 )$	$A_2 ( 3 , 7 )$	$B_1 ( 5 , 8 )$	$B_2 ( 9 , 5 )$	$C_1 ( 6 , 2 )$	$C_2 ( 4 , 9 )$
$(2, 4)$	$0$	$4$	$7$	$8$	$6$	$7$
$(4, 8)$	$6$	$2$	$1$	$8$	$8$	$1$
$(7, 3)$	$6$	$8$	$7$	$4$	$2$	$9$

第二次迭代 : 步骤 ( 3 ) 聚类分组

1 . 聚类分组 : 根据计算出的 , 每个样本与 $3$ 个中心点的距离 , 将样本划分到距离该样本最近的中心点对应的分组中 ;

	$A_1 ( 2 , 4 )$	$A_2 ( 3 , 7 )$	$B_1 ( 5 , 8 )$	$B_2 ( 9 , 5 )$	$C_1 ( 6 , 2 )$	$C_2 ( 4 , 9 )$
$(2, 4)$	$0$	$4$	$7$	$8$	$6$	$7$
$(4, 8)$	$6$	$2$	$1$	$8$	$8$	$1$
$(7, 3)$	$6$	$8$	$7$	$4$	$2$	$9$

2 . 根据表格中的距离 , 为每个样本分组 :

① $A_1 ( 2 , 4 )$ 距离 $(2, 4)$ 中心点最近 , 划分到聚类 $1$ 中 ;

② $A_2 ( 3 , 7 )$ 距离 $(4, 8)$ 中心点最近 , 划分到聚类 $2$ 中 ;

③ $B_1 ( 5 , 8 )$ 距离 $(4, 8)$ 中心点最近 , 划分到聚类 $2$ 中 ;

④ $B_2 ( 9 , 5 )$ 距离 $(7, 3)$ 中心点最近 , 划分到聚类 $3$ 中 ;

⑤ $C_1 ( 6 , 2 )$ 距离 $(7, 3)$ 中心点最近 , 划分到聚类 $3$ 中 ;

⑥ $C_2 ( 4 , 9 )$ 距离 $(4, 8)$ 中心点最近 , 划分到聚类 $2$ 中 ;

3 . 最终的聚类分组为 :

① 聚类 $1$ : ${ A_1 \}$

② 聚类 $2$ : ${ A_2 , B_1 , C_2 \}$

③ 聚类 $3$ : ${ B_2 , C_1 \}$

第二次迭代的聚类分组 , 与第一次迭代的聚类分组 , 没有改变 , 说明聚类算法分析结果已经收敛 , 该聚类结果就是最终的结果 ;

K-Means 迭代总结

1 . 第一次迭代 :

① 设置中心点 : 设置了 $3$ 个初始中心点 , $A_1 ( 2 , 4 )$ 对应聚类 $1$ 中心点 , $B_1 ( 5 , 8 )$ 对应聚类 $2$ 中心点 , $C_1 ( 6 , 2 )$ 对应聚类 $3$ 中心点 ;

② 计算中心点距离 : 然后就算 $6$ 个样本距离这 $3$ 个中心点的距离 ;

③ 根据距离聚类分组 : 每个样本取距离最近的 $1$ 个中心点 , 将该样本分类成该中心点对应的聚类分组 , 聚类分组结果是 , 聚类 $1$ : ${ A_1 \}$ , 聚类 $2$ : ${ A_2 , B_1 , C_2 \}$ , 聚类 $3$ : ${ B_2 , C_1 \}$ ;