2022-12-20 14:43:58
什么是聚类分析?
聚类分析中的数据类型
主要聚类分析方法分类
划分方法(Partitioning Methods)
分层方法
基于密度的方法
基于表格的方法
基于模型的方法
异常分析
总结
目录
5.1区间标度变量(Interval- scaled variables)
5.6混合型变量(Variables of mixed types)
一、预备知识
簇(cluster):一个数据对象的几何图形。
在同一个类(或簇)中,对象之间具有相似性;不同类的对象之间是相异的。
聚类分析:把一个给定的数据对象集合分成不同的簇。
聚类是一种无监督分类法:没有预先制定的类别;
典型的应用
作为一个独立的分析工具,用于了解数据的分布;
作为其它算法的一个数据预处理步骤。
二、聚类的常规应用
2.1 模式识别
2.2 空间数据分析
在GIS中,通过聚类发现特征空间来建立主题索引;
在空间数据挖掘中,检测并解释空间中的簇。
2.3 图像处理
2.4 经济学(尤其是市场研究方面)
2.5 WWW
文档分类;
分析WEB日志数据来发现相似的访问模式。
2.6 应用聚类分析的例子
(1)市场销售
帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划。
(2)土地使用
在一个陆地观察数据库中标识哪些土地使用相似的地区。
(3)保险
对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户。
(4)城市规划
根据类型、价格、地理位置等来划分不同类型的住宅。
(5)地震研究
根据地质断层的特点把已观察到的地震中心分成不同的类。
三、好的聚类方法?
一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点:
(1)高的簇内相似性
(2)低的簇间相似性
聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;
聚类方法的好坏还取决于该方法是否能发现某些还是所有的隐含模式。