选取聚类数量
目前来说,选取聚类的数量,仍然是靠手动选择,通常在数据集中,有几个聚类是说不清楚的。如下图,可以看作四个聚类,也可以看作两个聚类,也有人将它看作三个聚类。
肘部法则
肘部法则是通过改变K的值,来计算当前K值下代价函数J的值是多少,并将这几个 ( K , J ) 绘制在图像中,通过寻找一个明显的“拐点”,来选择一个合适的K值。
很明显,K = 3 是这个图像的肘部,即“拐点”,当选取大于 3 的值,再改变K值对代价函数值得影响不大了,因此,K = 3 是最佳的选项。
然而,在实际应用中,肘部法则并没有那么实用,因为往往通过肘部法则得到的曲线,是十分模糊的,无法很好地选取一个合适的拐点。