聚类
对一批没有类别标签的样本集,按照样本之间的
相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为
聚类分析,也称为
无监督分类。
--聚类的质量(或结果)取决于对
度量标准的选择。
--聚类结果 因不同任务而不同。
--聚类结果 因不同任务而不同。
挑战性问题
–可伸缩性
•可伸缩性是指聚类算法无论 对于小数据集还是大数据集,都应有效;无论对小类别数据还是大别类数据,都应有效。
–具有不同类型的数据处理能力
•既可处理数值型数据,也可处理非数㨁型数据;既可处理离散数据,也可处理连续域内的数据。比如布尔型、时序型、枚举型、以及这些类型的混合。
–能够发现任意形状的聚类
•能够发现任意形状的簇,球状的、位于同一流形上的数据。因此,选择合适的距离度量很关键。
•可伸缩性是指聚类算法无论 对于小数据集还是大数据集,都应有效;无论对小类别数据还是大别类数据,都应有效。
–具有不同类型的数据处理能力
•既可处理数值型数据,也可处理非数㨁型数据;既可处理离散数据,也可处理连续域内的数据。比如布尔型、时序型、枚举型、以及这些类型的混合。
–能够发现任意形状的聚类
•能够发现任意形状的簇,球状的、位于同一流形上的数据。因此,选择合适的距离度量很关键。
–能够处理高维数据<