聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息,顾客分类,文章分类等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。
无监督学习(英语:unsupervised learning)是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。无监督学习的主要运用包含:聚类分析(cluster analysis)、关系规则(association rule)、维度缩减(dimensionality reduce)。它是监督式学习和强化学习等策略之外的一种选择。一个常见的无监督学习是数据聚类。简单来说,就是给出的数据集合只有自变量,没有因变量,通过分析自变量,找出样本的关系,如分类、关系等。
分类和聚类的区别
分类:事先知道存在哪些类别(有x和y)
聚类:事先不知道存在哪些类别(只有x)
一、聚类分析的常见算法
K-Means(K均值)聚类
均值漂移聚类
基于密度的聚类方法(DBSCAN)
用高斯混合模型(GMM)的最大期望(EM)聚类
凝聚层次聚类
图团体检测(Graph Community Detection)
二、K-Means(K均值)聚类
算法步骤:
首先我们选择一些类/组,并随机初始化它们各自的中心点。中