KMeans秘籍之如何确定K值

最新推荐文章于 2024-08-06 14:48:25 发布

alicelmx

最新推荐文章于 2024-08-06 14:48:25 发布

阅读量1.4w

点赞数 3

分类专栏：机器学习和自然语言处理相关文章标签：聚类 NLP 机器学习

本文链接：https://blog.csdn.net/alicelmx/article/details/80991870

版权

机器学习和自然语言处理相关专栏收录该内容

31 篇文章 3 订阅

订阅专栏

                    
                        
                    
                    最常用最简单的方法可视化数据，然后观察出聚类聚成几类比较合适
绘制出k-average with cluster distance to centroid的图表，观察随着k值的增加，曲线的下降情况，当曲线不再“急剧”下降时，就是合适的k值
计算不同k值下KMeans算法的BIC和AIC值，BIC或AIC值越小，选择该k值
使用 Canopy算法先进行粗略的聚类，产生的簇的个数，作为KMeans算法的k值
使用x-means方法结合BIC准则去判定簇的个数，也就是k值
使用Gap Statistic公式来确定k值
使用轮廓系数来确定，选择使系数较大所对应的k值
使用交叉验证来确定使目标函数（距中心的距离的平方差）变小的k值
利用Affinity propagation的方法估计最优的聚类数目，进一步进行KMeans的算法
利用层次聚类，可视化后认为地观察认定可聚为几类，确定k值 
 确定较粗的数目，并找到一个初始聚类，然后用迭代重定位来改进该聚类。