聚类分析,就是按照个体的特征将他们分类,目的在于让同一个类别内的个体之间 具有较高的相似度,而不同类别之间具有较大的差异性。
我们可以对变量进行聚类,但是更常见的还是对个体进行聚类,也就是样本聚类。
例如对用户、渠道、商品、员工等方面的聚类,聚类分析主要应用在市场细分、用户细分等领域。
常用指标:距离和相似度。
聚类分析时,将“距离”较小的 点或“相似系数”较大的点归为同一类。
1.聚类分析总结起来共有四步:
(1)确定需要参与聚类分析的变量
(2)对数据进行 标准化处理
(3)选择聚类方法和类别个数
(4)聚类分析结果解读
常用的聚类方法主要包括:
(1)快速聚类(K-Means Cluster):也称为K均值聚类;它是按照一定的方法选取一批聚类中心点,让个案向最近的聚类中心点聚集形成初始分类,然后按照最近距离原则调整不合理的分类,直到分类合理为止。
(2)系统聚类(Hierarchical Cluster):也成层次聚类,首先将参与聚类的个案各视为一类, 然后根据两个类别之间的距离或者相似性逐步合并,直到所有个案合并为一个大类为止。
(3)二阶聚类(TwoStep Cluster):
也称两步聚类,它是 随着人工智能的发展而发展起来的一种智能聚类方法。整个聚类过程
分为两步:
第一步骤是预聚类