聚类算法
聚类属于典型的无监督学习算法,在数据挖掘与模式识别中有着广泛应用,此类算法需要处理的数据或者说样本特征一般情况下没有标签指明,该算法通过衡量样本间的相似度来使得相似样本归为一类(簇),而类的数量与属性也是未知的,属于需要进行调优的超参数。具体的类的数量我们在后文通过sse可以大致描述出来。
聚类算法的种类
- 层次聚类(hierarchical clustering)
- k均值聚类(K-means clustering)
本文介绍的是第二类:K-means算法 聚类所操作的对象便是实际的特征向量,假如我们有n个样本(向量),每个样本向量中有m个属性,那么下面的矩阵就可以表示样本集合
其中表示第个样本,而表示第个样本中的第个属性,在做聚类算法的时候,我们需要考虑的重要因素是如何衡量样本(向量)之间的相似度(距离)。