聚类是一种无监督的学习,它将相似的对象归到同一个簇中。聚类分析试图将相似对象归入同一簇,将不相似对象归到不同簇。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。
聚类的概念
(1)聚类就是将集合划分成由类(相)似的对象组成的多个类的过程。
(2)聚类分析是研究(样品或指标)分类问题的一种统计分析方法。
(3)聚类所要求划分的类是未知的,一般把它理解为无监督学习。而分类算法是有训练样本的,属于监督学习。
聚类的典型应用
(1)聚类可以帮助市场分析人员从客户基本信息库中发现不同的客户群;
(2)在生物学上,聚类可以根据生物基因结构,推导出植物和动物的物种分类,从而获得对生物种群固有结构的认识;
(3)聚类还能从地球观测数据库中找到地形、地貌等地理特征相似的区域,提供生物物种或病虫害预警信息;
(4)根据房屋的类型、价值和地理位置等信息对城市房屋进行聚类分组,为客户提供房屋资产评估服务。
聚类常见算法分类
(1)划分聚类:大部分方法是基于距离的聚类算法。例如:k-MEANS、k-MEDOIDS、CLARANS等。
<