1.Kmaens是做什么的?在什么方面有应用?
Kmeans是聚类算法的一种,在工业界应用广泛,简单效果好,ps:企业拥有大数据量可以弥补Kmeans算法过于简单的性能劣势。
而复杂、高端的算法运行成本过高,企业用的略少。
2.其它聚类算法:Kmeans、EM算法、Mean Shift、谱聚类、层次聚类
3.Kmeans算法流程:
4.图解说明Kmeans:
数据
step1
step2
step3
step4
step5
step6
step7
step8
5.Kmeans缺点:
具有贪心算法特性,因此不是全局最优点。
6.影响算法的因素:
①类中心K的选取,k=3?k=4?
②初始点选取。ps:比K的选取重要。
①实验结果表明:Kmeans++的效果最好
②Kmeans++中为什么最远的点以某个概率选择?而不是直接选取最远的点?
因为:最远的点可能是离群点(异常值),不是很代表性的值