聚类分析和判别分析类似,都是根据观察或测量到的若干变量值判断研究对象如何分类的方法,但聚类分析是在未知类别数目的情况下,对样本数据进行分类;判别分析则是在已知类别数目的情况下,根据一定的指标对未知类别的数据进行归类。
1 聚类距离度量
2 K均值聚类(K-Means Clustering)
算法的目标是最小化簇内平方和(Within-Cluster Sum of Squares, WCSS):
W
C
S
S
=
∑
k
=
1
K
∑
x
i
∈
C
k
∥
x
i
−
μ
k
∥
2
WCSS = {\sum\limits_{k = 1}^K {\sum\limits_{{x_i} \in {C_k}} {\left\| {{x_i} - {\mu _k}} \right\|} } ^2}
WCSS=k=1∑Kxi∈Ck∑∥xi−μk∥2
数据点;
簇的质心;
表示数据点到质心的距离平方。
3 系统聚类
4 判别分类