1. k k k 均值聚类
k k k 均值聚类是基于样本集合划分的聚类算法。 k k k 均值聚类将样本集合划分为 k k k 个 子集,构成 k k k 个类, 将 n n n 个样本分到 k k k 个类中,每个样本到其所属类的中心的距离最 小。每个样本只能属于一个类, 所以 k k k 均值聚类是硬聚类。下面分别介绍 k k k 均值聚类 的模型、策略、算法, 讨论算法的特性及相关问题。
1.1 模型
给定 n n n 个样本的集合 X = { x 1 , x 2 , ⋯ , x n } , X=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}, X={
x1,x2,⋯,xn}, 每个样本由一个特征向量表示, 特征向量的维数是 m 0 k m_{0} k m0k 均值聚类的目标是将 n n n 个样本分到 k k k 个不同的类或族 中,这里假设 k < n ∘ k k<n_{\circ} k k<n∘k 个类 G 1 , G 2 , ⋯ , G k G_{1}, G_{2}, \cdots, G_{k} G1,G2,⋯,Gk 形成对样本集合 X X X 的划分,其中 G i ∩ G j = ∅ , ⋃ i = 1 k G i = X ∘ G_{i} \cap G_{j}=\varnothing, \bigcup_{i=1}^{k} G_{i}=X_{\circ} Gi∩Gj=∅,⋃i=1kGi=X∘ 用 C C C 表示划分, 一个划分对应着一个聚类结果。
划分 C C C 是一个多对一的函数。事实上,如果把每个样本用一个整数 i ∈ i \in i∈ { 1 , 2 , ⋯ , n } \{1,2, \cdots, n\} {
1,2,⋯,n} 表示,每个类也用一个整数 l ∈ { 1 , 2 , ⋯ , k } l \in\{1,2, \cdots, k\} l∈{
1,2,⋯,k} 表示,那么划分或者聚 类可以用函数 l = C ( i ) l=C(i) l=C(i) 表示, 其中 i ∈ { 1 , 2 , ⋯ , n } , l ∈ { 1 , 2 , ⋯ , k } i \in\{1,2, \cdots, n\}, l \in\{1,2, \cdots, k\} i∈