聚类算法之K-Means算法

最新推荐文章于 2023-04-06 12:19:51 发布

mlee1018

最新推荐文章于 2023-04-06 12:19:51 发布

阅读量1.2w

点赞数

分类专栏： ML 文章标签： kmeans machine-learning

本文链接：https://blog.csdn.net/Recall_Tomorrow/article/details/79456662

版权

ML 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

聚类

$\ \ \ \$ 对大量未进行标注（Unsupervised learning）的数据集，并按照数据集本身的内部数据特征将数据划分为多个不同的类别，从而使得类别内的数据相似度高，而类别间的数据差异性较大。因此，它的重点就在于计算样本间的相似度（Similarity）。

k-means算法思想与原理

$\ \ \ \$ 输入算法所需数据，数据样本集 $\mathcal D=\{X_1,X_2,\cdots,X_m\}$ ，将样本数据集分开的簇数 $K$ ，此处用欧几里得距离（Euclidean Distance）来计算样本间相似度：
1. 选择（选择策略可以随机，也可以多次选择选最佳等）初始化的K个类别的中心（Centroids）, $c_1, c_2, \cdots,c_k$ ;
2. 对于每一个样本 $X_i$ ，将其标记为距离类别中心 $c_j$ 最近的类别j, $\ \$ 即，

\forall i, l a b e l i = arg min 1 \leq j \leq k \sum i = 1 n (x i - c j i) 2 - - - - - - - - - - - \sqrt, c j = 1 N ( C j ) \sum X i \in C j X i

$\forall i,\ label_i=\mathop{\arg\min}_{1\leq j\leq k}\sqrt{\sum_{i=1}^{n}(x_i-c_{ji})^2}, c_j=\frac{1}{N(C_j)}\sum_{X_i\in C_j}X_i$
3. 更新每一个簇的质心为隶属该簇的所有样本的均值， 当然这只是策略之一，如还可以使用中值(Median) $\Longrightarrow$ 一定程度避免outliers；
4. 重复第2， 3步，直到满足终止条件之一。
终止条件，达到迭代次数，所有簇中心点变化不大于指定阈值，最小平方误差MSE

$\ \ \ \$ 最小化平方误差MSE(Loss Function)表示为,假设划分的簇为

{C1,C2,⋯,Ck} $\{C_1, C_2,\cdots,C_k\}$ ,

E = \sum i = 1 k \sum X j \in C i | | X j - c i | | 2, 其 中 c i = 1 | C i | \sum X j \in C i X j

$E=\sum_{i=1}^{k}\sum_{X_j\in C_i}||X_j-c_i||^2,其中c_i=\frac{1}{|C_i|}\sum_{X_j\in C_i}X_j$

k-means算法优缺点

优点：
1. 原理简单，处理效率高，效果还不错，
2. 对于大数据处理，能够保证较好的伸缩性，
3. 如果簇近似高斯分布，那么效果将会非常不错
缺点：
1. k值需要提前指定，而不同的k值得到的结果往往差别较大，
2. 算法对于初始的k个簇的质心敏感，
3. 离群值(outliers)对模型影响较大
欢迎大家查看Github实现代码
推荐博文

mlee1018

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
聚类算法之K-Means算法

聚类 \ \ \ \ 对大量未进行标注（Unsupervised learning）的数据集，并按照数据集本身的内部数据特征将数据划分为多个不同的类别，从而使得类别内的数据相似度高，而类别间的数据差异性较大。因此，它的重点就在于计算样本间的相似度（Similarity）。k-means算法思想与原理 \ \ \ \ 输入算法所需数据，数据样本集D={X1,X2,⋯,Xm}\mathcal
复制链接

扫一扫