数据挖掘聚类算法

最新推荐文章于 2023-10-18 20:31:14 发布

周子博

最新推荐文章于 2023-10-18 20:31:14 发布

阅读量892

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_34329522/article/details/79799920

版权

数据挖掘专栏收录该内容

18 篇文章 6 订阅

订阅专栏

k均值聚类算法
一、定义：

K-means算法是硬聚类算法，以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

k个初始类聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心，初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。如果在一次迭代前后，J的值没有发生变化，说明算法已经收敛。

二、算法过程

1）从N个文档随机选取K个文档作为质心
2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类
3）重新计算已经得到的各个类的质心
4）迭代2～3步直至新的质心与原质心相等或小于指定阈值，算法结束
具体如下：
输入：k, data[n];
（1）选择k个初始中心点，例如c[0]=data[0],…c[k-1]=data[k-1]；
（2）对于data[0]….data[n]，分别与c[0]…c[k-1]比较，假定与c[i]差值最少，就标记为i；
（3）对于所有标记为i点，重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数；
（4）重复(2)(3)，直到所有c[i]值的变化小于给定阈值。
三、优点

1.算法快速、简单;
2.当聚类是密集的，且类与类之间区别明显时，效果较好。
3.对大数据集有较高的效率并且是可伸缩性的;
4.时间复杂度近于线性，而且适合挖掘大规模数据集。
K-Means聚类算法的时间复杂度是O(nkt) ,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

四、缺点

1.在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。有的算法是通过类的自动合并和分裂，得到较为合理的类型数目 K，例如 ISODATA 算法。

2.在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为 K-means算法的一个主要问题。对于该问题的解决，许多算法采用遗传算法（GA），例如文献中采用遗传算法（GA）进行初始化，以内部聚类准则作为评价指标。

3.从 K-means 算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进，提高算法应用范围。

k均值聚类算法实例
 k均值聚类算法实例

周子博

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘聚类算法

k均值聚类算法一、定义：K-means算法是硬聚类算法，以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。k个初始类聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心，初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的...
复制链接

扫一扫