前言
今天一起学习下机器学习的今典分类算法之k-means
一、什么是k-means聚类算法?
k均值聚类是基于样本集合划分的聚类算法。简而言之,k 均值聚类将样本划分为 k 个类,将 n 个样本划分到 k 个类中,每个样本到其所属类中心的距离最小。k-means聚类属于硬聚类。
1、软聚类
软聚类就是把数据以一定的概率分到各类中,比如高斯混合模型(GMM),比如模糊 C 均值模型(Fuzzy c-Means)。聚类的结果往往是样本1在A类的概率是 0.7,在 B 类的概率是 0.3。软聚类又称为模糊聚类(fuzzy clustering)。
2、硬聚类
硬聚类就是把数据确切地分到某一类中,比如K-Means。
二、算法原理介绍
1、损失函数
定义样本与其所属类中心的距离总和为损失函数
W
(
C
)
=
∑
l
=
1
k
∑
C
(
i
)
=
l
∣
∣
x
i
−
x
l
‾
∣
∣
2
\begin{aligned} W(C) = \displaystyle\sum_{l=1}^k\displaystyle\sum_{C(i)=l}||x_i - \overline{x_l}||^2 \end{aligned}
W(C)=l=1∑kC(i)=l∑∣∣xi−xl∣∣2
式中,
x
l
‾
=
(
x
‾
1
l
,
x
‾
2
l
,
.
.
.
,
x
‾
m
l
)
\overline{x_l} = (\overline{x}_{1l}, \overline{x}_{2l}, ...,\overline{x}_{ml})
xl=(x1l,x2l,...,xml)是第 l 个类的中心(均值),m代表特征数。
k均值聚类是通过使损失函数最小化来选择最优的划分或者函数 C ∗ C\ast C∗。
C ∗ = a r g m i n C ∑ l = 1 k ∑ C ( i ) = l ∣ ∣ x i − x l ‾ ∣ ∣ 2 \begin{aligned} C\ast = arg \underset{C}{min}\displaystyle\sum_{l=1}^k\displaystyle\sum_{C(i)=l}||x_i - \overline{x_l}||^2 \end{aligned} C∗=argCminl=1∑kC(i)=l∑∣∣xi−xl∣∣2
2、算法流程
输入:n 个样本的集合
输出:样本集合的聚类
C
∙
C\bullet
C∙
- 初始化。令 t = 0,随机选择 k 个样本点作为初始聚类中心 m ( 0 ) = ( m 1 ( 0 ) , m l ( 0 ) , . . . , m k ( 0 ) ) m^{(0)} = (m^{(0)}_1,m^{(0)}_l,...,m^{(0)}_k) m(0)=(m1(0),ml(0),...,mk(0))。
- 对样本聚类。对固定的类中心 m ( t ) = ( m 1 ( t ) , m l ( t ) , . . . , m k ( t ) ) m^{(t)} = (m^{(t)}_1, m^{(t)}_l, ..., m^{(t)}_k) m(t)=(m1(t),ml(t),...,mk(t)),其中, m ( t ) m^{(t)} m(t)为类 G l G_l Gl的中心,计算每个样本到中心的距离,将每个样本指派到距离最近的类中,构成聚类结果 G ( t ) G^{(t)} G(t)。
- 更新聚类中心。根据聚类结果 G ( t ) G^{(t)} G(t),计算当前各个类中样本的均值,作为新的类中心 m ( t + 1 ) = ( m 1 ( t + 1 ) , m l ( t + 1 ) , . . . , m k ( t + 1 ) ) m^{(t+1)} = (m^{(t+1)}_1,m^{(t+1)}_l,...,m^{(t+1)}_k) m(t+1)=(m1(t+1),ml(t+1),...,mk(t+1))。
- 根据约束条件判断是否结束,未结束则返回样本聚类(一般下一次迭代和上一次结果相同)。
3、时间复杂度
k 个类,需要迭代 k 次,每次迭代需要计算 n 个样本的 m 个特征的均值,所以k-means的时间复杂度为O(nmk),其中 n 为样本数,k 为类别数,m 为特征数。
三、举例计算
参考文献
李航.统计学习方法(第二版) [M].北京:清华大学出版社,2019