原型聚类也称作“基于原型的聚类”,此类算法假设聚类结构可以通过一组原型刻画,在现实任务中极为常见。
(“原型”是指样本空间中具有代表性的点)
通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解。
采用不同的原型表示、不同的求解方式,将产生不同的算法,下面介绍几种著名的原型聚类算法。
k均值算法
给定样本集 D = { x 1 , x 2 , … … x m } D=\{x_1,x_2,……x_m\} D={ x1,x2,……xm},k均值算法针对聚类所得簇划分 C = { C 1 , C 2 … … C k } C=\{C_1,C_2……C_k\} C={ C1,C2……Ck},最小化平方误差
E = ∑ i = 1 k ∑ x i ∈ C k ∣ ∣ x − u i ∣ ∣ 2 E=\displaystyle\sum_{i=1}^{k}\displaystyle\sum_{x_i∈C_k}||x-u_i||^2 E=i=1∑kxi∈Ck∑∣∣x−ui∣∣2 (1-1)
其中, u i u_i ui是簇 C i C_i Ci的聚类中心, u i = 1 ∣ C i ∣ ∑ x ∈ C i x u_i=\frac{1}{|C_i|}\displaystyle\sum_{x∈C_i}x ui=∣C<