机器学习— 聚类(2)K-means聚类

本文详细介绍了K-means聚类算法,包括模型、策略和算法步骤。K-means是一种基于样本集合划分的聚类算法,通过最小化样本到类中心的距离总和来寻找最优划分。算法采用迭代方式,每次迭代包括样本分配和类中心更新,直至聚类结果稳定。
摘要由CSDN通过智能技术生成

1. k k k 均值聚类

k k k 均值聚类是基于样本集合划分的聚类算法。 k k k 均值聚类将样本集合划分为 k k k 个 子集,构成 k k k 个类, 将 n n n 个样本分到 k k k 个类中,每个样本到其所属类的中心的距离最 小。每个样本只能属于一个类, 所以 k k k 均值聚类是硬聚类。下面分别介绍 k k k 均值聚类 的模型、策略、算法, 讨论算法的特性及相关问题。

1.1 模型

给定 n n n 个样本的集合 X = { x 1 , x 2 , ⋯   , x n } , X=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}, X={ x1,x2,,xn}, 每个样本由一个特征向量表示, 特征向量的维数是 m 0 k m_{0} k m0k 均值聚类的目标是将 n n n 个样本分到 k k k 个不同的类或族 中,这里假设 k < n ∘ k k<n_{\circ} k k<nk 个类 G 1 , G 2 , ⋯   , G k G_{1}, G_{2}, \cdots, G_{k} G1,G2,,Gk 形成对样本集合 X X X 的划分,其中 G i ∩ G j = ∅ , ⋃ i = 1 k G i = X ∘ G_{i} \cap G_{j}=\varnothing, \bigcup_{i=1}^{k} G_{i}=X_{\circ} GiGj=,i=1kGi=X C C C 表示划分, 一个划分对应着一个聚类结果。
划分 C C C 是一个多对一的函数。事实上,如果把每个样本用一个整数 i ∈ i \in i { 1 , 2 , ⋯   , n } \{1,2, \cdots, n\} { 1,2,,n} 表示,每个类也用一个整数 l ∈ { 1 , 2 , ⋯   , k } l \in\{1,2, \cdots, k\} l{ 1,2,,k} 表示,那么划分或者聚 类可以用函数 l = C ( i ) l=C(i) l=C(i) 表示, 其中 i ∈ { 1 , 2 , ⋯   , n } , l ∈ { 1 , 2 , ⋯   , k } i \in\{1,2, \cdots, n\}, l \in\{1,2, \cdots, k\} i

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值