文章目录
什么是聚类
聚类算法:就是把距离作为特征,通过自下而上的迭代方式(距离对比),快速地把一群样本分成几个类别的过程。
更严谨,专业一些的说法是:
将相似的对象归到同一个簇中,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。
很显然,聚类是一种无监督学习。
- 对于有标签的数据,我们进行有监督学习,常见的分类任务就是监督学习;
- 而对于无标签的数据,我们希望发现无标签的数据中的潜在信息,这就是无监督学习。
我对一些常见的聚类算法,进行了整理。
前面讲到,聚类算法是根据样本之间的相似度,将数据进行归类的。
而相似度的度量方法,可以大致分为:
- 距离相似性度量
- 密度相似性度量
- 连通相似性度量
不同类型的聚类算法,采用的样本间的相似度度量方法是不同的。
下面介绍最基础的 Kmeans。