聚类的概念
聚类是无监督学习的一种,目的是为了对一组没有标签的数据,按照特定的特征,把它们分成不同的类,换句话说,就是把这一组无标签的的数据中,特征相近的那些数据聚合成一个类,聚合成的一个类叫做一个簇。
不同类型的聚类
按照数据分布的特点,采用的聚类方法可能会有所不同,常见的聚类算法
包含以下几种:
基于原型的聚类:对于聚类结果的每一个簇,我们都可以找到一个典型的数据来代表这个簇,换句话说,该数据的特征是这个簇中数据特征最标准的体现,那么这个标准数据就叫做这个簇的原型。以普通数据与原型数据之间的距离为标准,可以把所有数据聚合到不同的簇中。
层次聚类:顾名思义,就是在不同层次上对数据进行聚类,如:有一组数据,我们可以先把他们聚成四个簇a、b、c、d,然后通过衡量这四个簇之间的相似度,进一步把这四个簇两两聚合(如a和c聚合,b和d聚合),最后得到两个簇。
基于密度的聚类:把数据中分布密度相同的数据聚合成一类,也就是以数据分布的密度作为聚类的标准。
几种常见的聚类算法
K-均值聚类(k-means聚类)