十、K 均值聚类(K-means)

K-means是一种无监督学习的聚类算法,通过迭代寻找最佳聚类中心,实现数据的划分。该算法对大数据集高效,但易受初值、离群点影响,且对K值选择敏感。可以通过K-means++和ISODATA等优化方法改善其性能。
摘要由CSDN通过智能技术生成

聚类是在事先并不知道任何样本类别标签的情况下,通过数据之间的内在关系把样本划分为若干类别,使得同类别样本之间的相似度高,不同类别之间的样本相似度低的过程。因为没有用到样本的类别标签,因此聚类技术经常被称为无监督学习。

k 均值聚类是最著名的划分聚类算法,因为其简洁和高效的特性,使得它成为所有聚类算法中最广泛使用的一种。

1 基本思想

K 均值聚类的基本思想是,通过迭代方式寻找 K K K 个簇(Cluster)的一种划分方案,使得聚类结果对应的代价函数最小。

算法的流程如下:

  1. 输入数据集合,并对数据进行预处理,如归一化、离群点处理等,令 M M M 是样本的总数
  2. 输入定义的类别数 K K K
  3. 随机选择 K K K 个数据作为初始的聚类中心,记为 μ 1 ( 0 ) , μ 2 ( 0 ) , ⋯   , μ K ( 0 ) \mu_1^{(0)},\mu_2^{(0)},\cdots,\mu_K^{(0)} μ1(0),μ2(0),,μK(0)
  4. 定义代价函数: J ( c , μ ) = min ⁡ μ min ⁡ c ∑ i = 1 M ∥ x i − μ c i ∥ 2 J(c,\mu)=\min_{\mu} \min_{c} \sum_{i=1}^{M} \| x_i-\mu_{c_i} \| ^2 J(c,μ)=minμminci=1M
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值