目录
原理与用途
聚类是一种无监督学习算法,聚类的过程是一个见李假设的过程,使用聚类之后还需要总结每一类别的基本热证,从而更加清晰了解问题的实质。
目的:分类,一个类别的个体具有尽可能高的同质性,类别之间具有尽可能高的异质性。
原理:假设研究对象均用自变量所构成的高维空间中的“点”来表示,一般规则中距离较小的同一类,距离较大的为另外一个类。
以上的是个体的分类方法,使用距离分类。也可以使用变量分类,对于变量的分类一般使用相似系数(如相关系数)作为距离的测量指标。
用途:
1、设计抽样方案:分层抽样 (比如调研城市经济发展,先聚类划分成几个类别);
2、预分析过程:先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别或者子集,然后再进行后续的多远分析;
3、细分市场、个体消费行为划分。
常见的聚类方式
1、划分聚类:K-Means (中小规模,球形类别、计算速度较快)kmeans :k个族,且每个族中心采用族中所含值的均值计算而成;
2、层次聚类BIRCH:聚类结果丰富、不同层次结果间有嵌套关系 计算量相对较大;
3、基于密度DBSCAN:一个区域中点的密度大过某个阈值,就归于同一类别中,擅长各种特殊形状的类 计算量大;
4、基于网格STNG:将数据空间划分成有限单元,然后基于单元格进行聚类,处理速度快(效果比较差);
5、基于模型:SOM、高斯混合模型。
聚类中需要注意的问题:
1、变量选择:只引入不同类别间有显著性差别的变量(无关变量会削弱有效信息,导致严重的错分);
2、共线性问题:相当于某个变量在聚类中的权重大于其他变量,最好进行预处理;
3、变量的标准化:梳理统计算法上要求一律标准化,但标准化后会削弱有用变量的作用,当变量量纲/变异程度相差非常大时候需要进行;
4、距离测量方法:在没有明确准专业知识支持下,首先使用默认值;
5、异常值:影响较大,没有更好解决办法,如果不能避免异常值的影响,则在数据准备过程中加以处理;
6、最佳类别数:2~8数量比较合适。