无监督学习之K-means算法实现

最新推荐文章于 2022-10-24 08:33:55 发布

God_6838

最新推荐文章于 2022-10-24 08:33:55 发布

阅读量1k

点赞数

分类专栏： Machine/Deep Learning 文章标签：机器学习 K-means

本文链接：https://blog.csdn.net/God_68/article/details/81560533

版权

本文详细介绍了K-means聚类算法的基本原理、步骤和优缺点，并通过实例展示了如何利用K-means进行数据分类。算法依赖于预先设定的类别数K，对数值型数据进行高效处理，但也存在对初始中心点敏感和难以处理非凸形状聚类的问题。通过迭代计算最小化误差平方和，找到最优聚类划分。

摘要由CSDN通过智能技术生成

1 算法说明

1.1 基本原理

1967 年MacQueen 首次提出了K 均值聚类算法（K-means算法）。到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。K-means是最常用的聚类算法之一，能有效地处理规模较大和高维的数据集合，能对大型数据集进行高效分类，把数据分成几组，按照定义的测量标准，同组内数据与其他组数据相比具有较强的相似性，这就叫聚簇。它是聚类方法中一个基本的划分方法，常常采用误差平方和准则函数作为聚类准则函数。k-means算法(C均值算法)是通过迭代寻找C个聚类的一种划分方案，使得用这C个均值来代表相应各类样本时所得到的总体误差最小。

误差平方和 $J_{\epsilon }$ 度量了C个聚类中心代表C个样本自己所产生的总的误差平方，对于不同的聚类 $J_{\epsilon }$ 一般是不相同的。使 $J_{\epsilon }$ 极小的聚类是误差平方和准则下的最优结果，这种类型的聚类通常称为最小方差划分。