k均值算法是我们学习聚类算法的第一种算法,前面我们介绍了聚类任务以及聚类任务的性能度量,但是还没有介绍具体的算法,今天我们从k均值算法开始说起,前面的博文中我们提到了EM算法,其实k均值算法中也带有EM算法的思想,我们一步一步来看。
k均值算法
给定样本集,那么k均值算法是如何将这些样本集划分为k个类别也就是k个簇,任何一种算法想达到某种效果,都需要有一个性能度量来衡量我这个算法最后聚类结果是否使我们满意的,那么这里k均值算法采用的是最小化同一个簇里面样本到簇中心的距离:
其中是簇的均值向量,这个式子直白的理解就是簇内样本围绕簇均值向量(簇中心)越紧密越好,和我们之前说的簇内相似度要最高,在这个式子中