一、前言
所谓聚类就是把相似的东西聚合在一起,从而起到分组的作用。它和Classification(分类)不同,Classifier(分类器)是从训练集中进行学习,从而获得对未知数据的分类能力,通常我们把这种通过训练而获得分类能力的过程称为监督学习(supervised learning),而在聚类的时候,我们并不关心所有数据是什么类的,我们对这些数据全然不知,我们通过聚类根据数据的某些相似性,通过相似性的大小把它们聚到一起。因此一个聚类算法只要知道如何计算数据的相似性,就可以进行工作了,所以聚类(clustering)并不需要训练数据进行学习,这在Machine Learning 中被称为无监督学习(unsupervised learning)。