聚类分析
指将对象的集合分组为由类似的对象组成的多个类的分析过程,目的是在相似的基础上收集数据来分类。
聚类算法分为:
1)划分聚类:K-means聚类、K-中心点聚类、CLARANS算法
2)层次聚类 :DIANA算法、BIRCH算法、Chameleon算法
3)模糊聚类 :EM算法
4)基于密度聚类:OPTICS算法、DBSCAN算法
K-Means(K均值)聚类
算法步骤:
(1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。
(2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。
(3) 计算每一类中中心点作为新的中心点。
(4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。
K-Modes算法
X-01