7.3聚类
7.3.1概念
聚类分析的核心是聚类,聚类是一种无监督学习,实现的是将整个数据集分成不同的“簇”,在相关的文献中,也将之称为“对象”或“数据点”
聚类要求簇与簇之间的区别尽可能大,而簇内数据的差异尽可能小。与分类不同,不需要先给出数据的类别属性
7.3.2聚类分析的基本方法
(1)划分聚类的方法
给定一个数据集,将构建数据集的有限个划分,每个划分都是一个簇,且每一个划分应当满足如下两个条件:
①每个划分中至少包含一个样本
②每个样本只能属于一个簇
k-Means和k-Medoids就是典型的划分聚类算法
k-Means 算法是一种最常用的基于划分的聚类方法。其基本思想是:把数据集划分成k 个簇,每个簇内部的样本非常相似,但不同簇之间