过程
kMeans的过程即迭代求平均质心,直到质心偏移较小或迭代次数足够多为止。
评估
- 用SSE,即每个类别到中心的误差平方和,测量当前参数设置的聚类结果。
- 并用肘方法选择最佳的k值
- 最后用轮廓系数法(Silhouette Coefficient)评估聚类的效果,目的时内部距离最小化,外部距离最大化。关于轮廓系数的说明, 轮廓系数说明2。所有样本的s i 的均值称为聚类结果的轮廓系数,是该聚类是否合理、有效的度量。
- CH系数(Calinski-Harabasz Index)待读
KMeans的改进方法 分裂法,凝聚法,谱类聚等等
聚类的注意问题
聚类的注意问题在14分钟后提到:聚类时,
- 对于连续性变量,为了解决不同单位换算的问题,应当使用标准化。因为不同单位下变量的欧氏距离会变化较大。
- 对于分类型变量(即one-hot变量),应当将1转化为
1
2
\frac{1}{\sqrt{2}}
21。因为如下图所示,当两个one-hot变量只有一个类型的差别,但计算得到的距离是
1
2
+
1
2
=
2
\sqrt{1^2+1^2}=\sqrt{2}
12+12=2,因此将one-hot变量的1转为
1
2
\frac{1}{\sqrt{2}}
21,使得欧式距离计算得1.