【聚类2】原型聚类

最新推荐文章于 2023-12-19 22:27:07 发布

NoBug.己千之

最新推荐文章于 2023-12-19 22:27:07 发布

阅读量2.8k

点赞数 3

分类专栏： trush 文章标签：机器学习聚类

本文链接：https://blog.csdn.net/qq_51184516/article/details/124234958

版权

文章目录

1. 原型聚类

1. 原型聚类

概念

- "原型："
		"原型"是指样本空间中具有代表性的点。

- "别名："
		1）基于原型的聚类
		2）英文：prototype-based clustering

- "此类算法的原理："
		算法先对原型进行初始化，然后对原型进行迭代更新求解

- "常见的原型聚类算法："
		1. k均值算法(k-means)
		2. 学习向量量化(LVQ)
		3. 高斯混合聚类

算法讲解

1.1 k均值算法（K-Means）

1.1.1 最小化平方误差

$概念：$
$\ \ \ \ \ \ \ \ \ \ {}$ $刻画了簇内样本围绕簇均值向量的紧密程度, 值越小则簇内样本相似度越高$

$前提：$
$\ \ \ \ \ \ \ \ \ \ {}$ $样本集D=\{x_1,x_2,...,x_m\}$

$\ \ \ \ \ \ \ \ \ \ {}$ $簇划分C=\{C_1,C_2,...,C_k\}$

$\ \ \ \ \ \ \ \ \ \ {}$ $簇C_i的均值向量：u_i=\frac{1}{|C_i|}\sum_{x\in C_i}x$

$公式：$
$\ \ \ \ \ \ \ \ \ \ {}$ $E=\sum_{i=1}^k\sum_{x\in C_i}||x-u_i||_2^2$

$最优解：$
$\ \ \ \ \ \ \ \ \ \ {}$ $最小化 E 不好求：最优解需考察样本集所有可能的簇划分（ N P 问题）$
$\ \ \ \ \ \ \ \ \ \ {}$ $N P 问题：找一个解很困难，但验证一个解很容易（片面理解哈）$

$迭代法：$
$\ \ \ \ \ \ \ \ \ \ {}$ $k 均值算法采用了贪心策略，通过 “ 迭代优化 ” 来近似求解$

1.1.2 k均值算法伪代码

$输入：$
$\ \ \ \ \ \ \ \ \ \ {}$ $样本集D = {x_1,x_2,...,x_m}$
$\ \ \ \ \ \ \ \ \ \ {}$ $聚类簇数 k$

$过程：$
$\ \ \ \ \ \ \ \ \ \ {}$ $从D中随机选择k个样本作为初始均值变量{u_1,u_2,...,u_k}$

$\ \ \ \ \ \ \ \ \ \ {}$ $r e p e a t$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\emptyset (1\leq i\le k)$

$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $for\ j = 1,2,...,m\ do$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $计算样本x_j与各均值向量u_i(1\leq i\le k)的距离:d_{ji}=||x_j-u_i||_2;$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $根据距离最近的均值向量确定x_j的簇标记:\lambda_j=min_{i\in\{1,2,...,k\}}d_{ji}$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $将样本x_j划入相应的簇:C_{\lambda_j}=C_{\lambda_j}\bigcup\{x_j\}$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $end\ for$

$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $for\ i=1,2,...,k\ do$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $计算新均值向量：u'_i=\frac{1}{|C_i|}\sum_{x_i\in C_i}x$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $if\ u'_i\neq u_i\ then$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $将当前均值向量u_i更新为u'_i$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $e l s e$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $保持当前均值向量不变$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $end\ if$
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ $end\ for$

$\ \ \ \ \ \ \ \ \ \ {}$ until
$\ \ \ \ \ \ \ \ \ \ {}$ $\ \ \ \ \ \ \ \ \ \ {}$ 当前均值向量均未更新

$输出：$
$\ \ \ \ \ \ \ \ \ \ {}$ 簇划分C = {C1,C2,…,Ck}

1.1.3 k均值算法注意

- "最大运行轮数" + "最小调整幅度"
		1）为避免运行时间过长，通常设置一个"最大运行轮数"
		或"最小调整幅度"，
		2）若达到最大轮数或调整幅度小于阂值，则停止运行.

1.1.4 k-means聚类的缺点

- "2维k-means模型："
		1）以每个簇的中心为圆心，簇中点到簇中心点的欧氏距离最大值为半径画一个圆。
		2）k-means要求这些簇的形状必须是圆形的。
		3）k-means模型拟合出来的簇（圆形）与实际数据分布（可能是椭圆）差别很大。
		4）应用中缺少鲁棒性（在异常和危险情况下系统生存的能力）。

1.1.5 k均值算法例子

【D】
在这里插入图片描述
【k = 3】

【步骤】

$第一步：随机选择$
$算法开始时随机选取三个样本x_6,x_{12},x_{27}$
$即，u_1=(0.403;0.237),u_2=(0.343;0.099),u_3=(0.532;0.472)$

$第二步：考察样本$
$例：x_1=(0.697;0.460)$
$\ \ \ \ \ \ \ \ \ \ \ 一般用欧式距离$
$\ \ \ \ \ \ \ \ \ \ \ d_1=\sum_{i=1}^2||x_{1i}-u_{1i}||_2$
$\ \ \ \ \ \ \ \ \ \ \ d_1=\sqrt{(0.697-0.403)^2+(0.460-0.237)^2}=0.369$
$\ \ \ \ \ \ \ \ \ \ \ d_2=\sqrt{(0.697-0.343)^2+(0.460-0.099)^2}=0.506$
$\ \ \ \ \ \ \ \ \ \ \ d_3=\sqrt{(0.697-0.532)^2+(0.460-0.472)^2}=0.166$
$因此x_1将划入簇C_3中$

$第三步：划分样本$
$C_1=\{x_5,x_6,x_7,x_8,x_9,x_{10},x_{13},x_{14},x_{15},x_{17},x_{18},x_{19},x_{20},x_{23}\}$

最低0.47元/天解锁文章

NoBug.己千之

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【聚类2】原型聚类

文章目录5. 原型聚类学习向量量化（接上一篇）高斯混合聚类6. 密度聚类5. 原型聚类学习向量量化（接上一篇）学习向量量化算法例子【D:】【q = 5】即，学习目标找到5个原型向量p1,p2,p3,p4,p5p_1,p_2,p_3,p_4,p_5p1,p2,p3,p4,p5令，其对应的类别标记分别为c1,c2,c3,c4,c5c_1,c_2,c_3,c_4,c_5c1,c2,c3,c4,c5【η=0.1\eta=0.1η=0.1】第一步：原型向量随机初始化第一步：
复制链接

扫一扫