一. 聚类(K-means算法)
1. 是数据挖掘十大经典算法之一。
2. 算法接受参数K,然后将事先输入的n个对象划分为k个聚类,以便使得所获得的聚类满足:同一聚类中的对象相似度较高,而不同聚类中的对象相似度低。
3. 算法思想:先选出初始的中心点,以每个中心点进行聚类,也就是计算每个点到各个中心点的距离,找到距离某个中心点最小的距离归为那个中心点那一类。再以这些聚类好的点的中心进行聚类,不断迭代,直至得到最好的聚类效果。
4. 算法流程:
5. 优缺点:
优点:速度快,简单。对球状数据类型比较好。
缺点:跟初始点选择有关,容易陷入局部最优,需要知道k值。