聚类是属于非监督学习中的应用。非监督的意思是,我不知道label是什么,有什么。
其实在现实生活,给数据集标label的成本过高,所以大多数数据集是没有label,这也可以知道非监督学习的重要性。
这次给大家分享:K-means聚类、均值漂移聚类、基于密度的聚类、基于分布的聚类(本文用高斯分布做例子)、层次聚类。
1. K-means 聚类
1)过程:
S1. 选定K,K是最终聚类的数目。这需要一定的先验知识,如果没有的话,可能需要随机试再用交叉验证看分类效果哪个更好,就选定那个K。
S2. 选取K个初始的质心,最好不要选太近的质心,因为初始质心的选择虽然不会影响最终结果,但是影响算法运行的时间。
S3. 计算每个样本离这些质心的距离,选择最近的质心并与它结合为一类。
S4. 得到K个类之后,重新计算每一个类中新的质心,重复以上步骤,直至质心不再改变。
2)K-Means的主要优点有:
a. 原理比较简单,实现也是很容易,收敛速度快。
b. 聚类效果较优。
c. 算法的可解释度比较强。
d. 主要需要调参的参数仅仅是簇数k。
3)K-Means的主要缺点有ÿ