k-means聚类算法,一种原理简单、实现容易、好调参、收敛速度快而且聚类效果优秀的聚类工具。
这种算法的核心在于它可以通过迭代计算,将数据点归入预设数量的簇中,让簇内数据点相似度高,簇间数据点相似度低,从而实现高效的数据聚类。因此它在众多应用场景下都是首选,特别是金融市场预测,有成果甚至已经达到94.61%的准确率。
不过k-means基本版本还存在一些问题,为了提高聚类的质量和模型性能,研究者们致力于改进k-means。目前关于k-means的改进思路主要有初始化策略、考虑数据的结构、动态调整K值等,很多有效的改进策略已经发表。
为了帮助同学们找到新的idea,我这回挑选了9个k-means的改进与应用方案,基本都是最新的,创新点的参考价值也比较高,相关代码也有。
论文原文+开源代码需要的同学看文末
改进
Local Search k-means++ with Foresight
方法:论文提出了一种名为Foresight LS++(FLS++)的新算法,旨在提高K-means聚类的性能。FLS++算法通过结合局部搜索技术和d2-sampling初始化方法,以期望在解质量和运行时间上都有所提升。