十大经典数据挖掘算法之K-Means算法

最新推荐文章于 2024-05-18 12:25:51 发布

每一天都可怜

最新推荐文章于 2024-05-18 12:25:51 发布

阅读量691

点赞数

本文链接：https://blog.csdn.net/qq_44894516/article/details/89311025

版权

1、K-means算法简介

K-means是最简单的聚类算法之一，简单地说就是把相似的东西分到一组，同 Classification (分类)不同，对于一个 classifier ，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning (监督学习)，而在聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，K-means算法运用十分广泛，一般在数据分析前期使用，选取适当的k，将数据分类后，然后研究不同聚类下数据的特点。

2、K-Means聚类算法原理简介

K-means 算法接受参数k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。
　　K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。
　　假设要把样本集分为c个类别，算法描述如下：
　　（1）适当选择c个类的初始中心；
　　（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；
　　（3）利用均值等方法更新该类的中心值；
　　（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。
　　该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。

3、算法原理详解

　　假设我们提取到原始数据的集合为(x₁, x₂, …, x_n)，并且每个xi为d维的向量，K-means聚类的目的就是，在给定分类组数k（k ≤ n）值的条件下，将原始数据分成k类
S = { S₁, S₂, …, S_k}，在数值模型上，即对以下表达式求最小值：

最低0.47元/天解锁文章

每一天都可怜

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
十大经典数据挖掘算法之K-Means算法

十大经典数据挖掘算法之K-Means算法
复制链接

扫一扫

十大经典数据挖掘算法之K-Means算法

“相关推荐”对你有帮助么？