1.聚类分析
聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内对象相互之间的相似的(相关的),而不同组之间的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。
聚类分析将数据将数据划分为有意义或有用的组(簇)。如果目标是划分为有意义的组,则簇应当捕获数据的自然结构。然而,在某种意义下,聚类分析只是其他目的的起点。无论是旨在理解还是应用,聚类分析都在广泛的领域扮演着重要的角色。这些领域包括:心理学和其他社会学,生物学,统计学,模式识别,信息检索、机器学习和数据挖掘。
聚类分析在许多实际问题上都有应用,在商务上,聚类能够帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能够用于推导植物和动物的分类,对基因的分类,获得对种群中固有结构的认识。聚类也能够用于对web上的文档进行分类,以发现信息。作为一个数据挖掘的功能,聚类分析能够作为一个独立的工具来获得数据分布的情况,观察数据簇的特点,集中对特定的某些簇作进一步的分析。此外,聚类分析可以作为其他算法(如特征和分类等)的预处理步骤,这些算法再在生成簇上进行处理。