肘方法:Elbow of SSE
也被称为 Knee of SEE,膝盖方法。
在聚类算法中,特别是K均值聚类,使用SSE(Sum of Squared Errors)来寻找最优的K值是一种常见的方法。这种方法通常被称为“肘部法则”(Elbow Method)。SSE是指每个点到其最近的聚类中心的距离的平方和。当选择不同数量的聚类时,SSE通常会随着聚类数量的增加而减少,因为更多的聚类意味着每个聚类中的点更接近其中心。
以下是如何使用肘部法则来确定最优K值的步骤:
- 计算不同K值的SSE:首先,对于一系列的K值(比如从1到10),对数据集应用K均值聚类,并计算每个K值的SSE。
- 绘制SSE图:然后,将每个K值的SSE绘制成一张图表。横轴是K值,纵轴是对应的SSE。
- 寻找“肘点”:在这张图表上,肘部法则的目标是找到SSE开始下降速率减缓的点。换句话说,就是找到一个点,在这一点之前,增加聚类数目会显著减少SSE;但在这点之后,增加聚类数目对于减少SSE的贡献就变得不那么明显。这个点就像人的肘部一样,即SSE曲线的“弯曲”部分。
本文介绍了在K均值聚类中确定最优K值的两种方法——肘部法则(Elbow Method)和轮廓系数(Silhouette Coefficient)。肘部法则通过观察SSE(误差平方和)随K值变化的图表,寻找SSE下降速率减缓的“肘点”。轮廓系数结合了聚类密集度和分离度,通过计算样本的轮廓系数来评估聚类效果,选择平均轮廓系数最高的K值。在具体案例中,两者都指向K=4作为最优聚类数量。
订阅专栏 解锁全文
4395

被折叠的 条评论
为什么被折叠?



