【机器学习】K-Means算法

DateHero

于 2016-09-01 10:10:57 发布

阅读量5.9k

点赞数

分类专栏：机器学习文章标签：机器学习数据挖掘聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DateHero/article/details/52396709

版权

本文介绍了K-Means聚类算法的历史、原理及其在机器学习中的应用。该算法是一种无监督学习方法，用于将数据集划分为k个类别。算法流程包括选择初始簇中心、计算数据点与簇中心的距离、更新簇中心，直至簇中心不再变化。K-Means算法的优点是高效处理大数据集，但对初始值k的选择和噪声点敏感。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.引言

有人认为k-means算法是由J.B.MacQueen在1967年提出的，也有人认为k-means聚类算法是由Steinhaus(1955)、Lloyd(1957)、Ball和Hall(1965)、McQueen(1967)分别在各自不同的科学研究领域独立地提出。但大多数人认为MacQueen提出了 k-means算法[2]，他总结了Cox[3]，Fisher[4]，Sebestyen[5]等的研究成果，给出了k-means算法的详细步骤，并用数学方法进行了证明。
但不管怎么样，距离至今，k-means算法已经将近有50年的历史了，很多人仍旧对它进行研究和改进，工业界也常常看见它的身影。

二.原理

k-mean又叫k均值算法，它是一种聚类算法，聚类算法在机器学习中属于无监督的学习算法(Unsupervised Learning)，其中k表示聚类后类别的个数，k是人为预先指定的。

看到这，我们也许会想几个问题：

（1）. k的值是人为的选取，有没有一套科学指导方法？往往给定一个数据集，我们事先并不知道应该要把该数据集划分成多少类才合适。
（2）.如何对数据集划分呢？对于其中的任何一条数据记录，我们该把它归为k类中的哪一类？
（3）.如何知道最后得到的聚类结果是好还是坏呢？也就是说有没有一个标准去测试聚类结果的好坏。

带着这些问题我们先看看聚类算法的核心思想：
给定一个数据集，它有n条数据记录

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。