数据挖掘十大经典算法学习之K均值（K-means）聚类算法

vshadow

于 2012-12-05 09:41:45 发布

阅读量7.5k

点赞数

分类专栏：数据挖掘学习笔记文章标签：数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vshadow/article/details/8258512

版权

数据挖掘学习笔记专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了K-均值聚类算法的基本原理及应用流程。从算法步骤到聚类表示，再到评估方法，全面解析了该算法的优势与局限性，并探讨了如何通过数据标准化提升聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本概念

• 监督学习vs.无监督学习

Ø 监督学习: 发现数据属性与类别属性之间的关联模式。

– 通过利用这些模式来预测未知数据实例的类别属性。

Ø 无监督学习: 没有类别属性.

– 希望探索数据以发现其中的内在结构。

无监督学习包括聚类、关联规则等。

• K-均值聚类算法是最著名的划分聚类算法。

Ø 设实例的集合D为{x₁,x₂, …, x_n}， x_i = (x_i₁,x_i₂, …,x_ir) 是实数空间的向量，r表示数据的属性数目（数据空间的维数）。

• K-均值算法把给定的数据划分成k个聚类。

Ø 每个聚类有一个聚类中心。

Ø k的值由用户指定。

step1: 随机选择k个数据点作为初始聚类中心。

step2: 计算每个数据点与各聚类中心的距离，将数据点分配给与其距离最小的聚类中心，直至所有数据均被分配。

step3: 重新计算现有聚类的聚类中心。

step4: 重复step2~step3直到满足收敛条件。

聚类的表示

1. 聚类中心

2. 分类模型

3. 平凡值

距离函数

• 聚类中心：所有向量除以个数。

• 数据点和聚类中心之间的距离：欧几里得距离

//距离公式有很多种，对于不同类型的数据集，如何选用合适的距离公式？

终止条件

• 没有数据点被重新分配给不同的聚类。

• 聚类中心不再变化。

• 误差平方和（SSE）局部最小。

SSE：所有数据点离其聚类中心的距离。用来度量聚类的好坏。

C_i 表示第j个聚类, m_j 是聚类C_j 的聚类中心（C_j所有数据点的均值向量）,dist(x,m_j) 是数据点 x与聚类中心m_j. 之间的距离。

//如何证明k-means会收敛？

优势&劣势

优势：

Ø 简洁：容易被理解且容易被实现。

Ø 效率：时间复杂度O(tkn)是线性的,t是循环次数，k是聚类的个数，n是数据点的个数。

//另一说法，为O(n²)。因为聚类的个数k最大可以达到n。

劣势：

Ø 只能应用于均值能够被定义的数据集上。

Ø 用户需事先指定聚类数目k。

Ø 算法对异常值十分敏感。

Ø 对初始种子敏感。

Ø 不适用于超维椭球体的聚类。

数据标准化

强制各个属性都在一个相同的范围内变化。

聚类的评估

• 基于外部信息：

Ø 分类数据集评估 e.g.鸢尾花label。

Ø 熵

Ø 纯度：一个聚类中仅包含一个类别的数据的程度。

• 基于内部信息：

Ø 聚类内紧密度（SSE）

Ø 聚类间分离度

Acknowledgements&References：

感谢陈W老师主持的系列DM讲座。理论知识部分摘自于刘冰的《Web数据挖掘》。

博客等级

码龄17年

33
原创

23
点赞

31
收藏

29
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 数据挖掘十大经典算法学习之C4.5决策树分类算法及信息熵相关

下一篇：: 五款开源的数据挖掘软件

最新评论

java - try with resource
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客介绍了java中的try with resource用法，对于我们开发人员来说非常实用。我觉得博主可以继续写一篇关于Java异常处理的文章，介绍一下常见的异常类型和处理方式，这样的技术文章对其他Java开发者会非常有帮助。下一篇你可以继续就Java异常处理方面的知识点展开，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
c50 code called exit with value 1
Laura0226: 您好，我的数据明明没有空值为什么还是不行？我看别人说C50不能用字符型的factor，是因为这个原因吗？
数据挖掘十大经典算法学习之Adaboost自适应增强学习算法
Chris Mend: 刘兵老师
数据挖掘十大经典算法学习之C4.5决策树分类算法及信息熵相关
echowong2012 回复 cuixuange: 一样可以做的，但是算式要稍微换一下。看有本叫《数据挖掘》的书，封面是一堆石头中间有点金色。里面有详细介绍。
数据挖掘十大经典算法学习之C4.5决策树分类算法及信息熵相关
cuixuange: 如果类别的标签属性不止yes、no则呢么解决？

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。