聚类分析:用于客户细分极为重要。三类常见的聚类模型,K-Means,层次聚类,最大期望EM算法,其他的还有密度聚类
如何评价聚类结果好坏,一些常用的指标又有哪些
聚类分析的目的:让类群内观测的距离最近,同时不同全体之间的距离最大
1.聚类分析的距离问题:样本聚类距离:欧式距离,绝对值距离,明式距离,马氏距离。概率分布的距离衡量:k_l代表P,Q概率分布差的期望
聚类分析一般要进行标准化,因为聚类数据收到量纲的影响
标准化 x-min(x) / max(x)-min(x) 最小最大规范化 也叫离差标准化,是对原始数据的线性变换,将数据映射到[0,1]之间,与功效系数法相同
正态标准差标准化、零均值规范化等方法,经过处理的数据均值为0,标准差为1。公式为:
x*=(x-均值)/标准差
因为均值受离群值影响较大,也可以将均值替换成变量的中位数。
2.群体聚类距离: