- 最常用最简单的方法可视化数据,然后观察出聚类聚成几类比较合适
- 绘制出k-average with cluster distance to centroid的图表,观察随着k值的增加,曲线的下降情况,当曲线不再“急剧”下降时,就是合适的k值
- 计算不同k值下KMeans算法的BIC和AIC值,BIC或AIC值越小,选择该k值
- 使用 Canopy算法先进行粗略的聚类,产生的簇的个数,作为KMeans算法的k值
- 使用x-means方法结合BIC准则去判定簇的个数,也就是k值
- 使用Gap Statistic公式来确定k值
- 使用轮廓系数来确定,选择使系数较大所对应的k值
- 使用交叉验证来确定使目标函数(距中心的距离的平方差)变小的k值
- 利用Affinity propagation的方法估计最优的聚类数目,进一步进行KMeans的算法
- 利用层次聚类,可视化后认为地观察认定可聚为几类,确定k值
确定较粗的数目,并找到一个初始聚类,然后用迭代重定位来改进该聚类。
KMeans秘籍之如何确定K值
最新推荐文章于 2024-08-06 14:48:25 发布