【机器学习】K-Means算法

本文介绍了K-Means聚类算法的历史、原理及其在机器学习中的应用。该算法是一种无监督学习方法,用于将数据集划分为k个类别。算法流程包括选择初始簇中心、计算数据点与簇中心的距离、更新簇中心,直至簇中心不再变化。K-Means算法的优点是高效处理大数据集,但对初始值k的选择和噪声点敏感。
摘要由CSDN通过智能技术生成

一.引言


有人认为k-means算法是由J.B.MacQueen在1967年提出的,也有人认为k-means聚类算法是由Steinhaus(1955)、Lloyd(1957)、Ball和Hall(1965)、McQueen(1967)分别在各自不同的科学研究领域独立地提出。但大多数人认为MacQueen提出了 k-means算法[2],他总结了Cox[3],Fisher[4],Sebestyen[5]等的研究成果,给出了k-means算法的详细步骤,并用数学方法进行了证明。
但不管怎么样,距离至今,k-means算法已经将近有50年的历史了,很多人仍旧对它进行研究和改进,工业界也常常看见它的身影。

二.原理

k-mean又叫k均值算法,它是一种聚类算法,聚类算法在机器学习中属于无监督的学习算法(Unsupervised Learning),其中k表示聚类后类别的个数,k是人为预先指定的。

看到这,我们也许会想几个问题:

  • (1). k的值是人为的选取,有没有一套科学指导方法? 往往给定一个数据集,我们事先并不知道应该要把该数据集划分成多少类才合适。
  • (2).如何对数据集划分呢?对于其中的任何一条数据记录,我们该把它归为k类中的哪一类?
  • (3).如何知道最后得到的聚类结果是好还是坏呢?也就是说有没有一个标准去测试聚类结果的好坏。

带着这些问题我们先看看聚类算法的核心思想
给定一个数据集,它有n条数据记录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值