机器学习中的大部分问题都可以归为聚类或者分类问题。例如,我们利用神经网络来进行手写体数字识别,无非是将所有手写体数字图片分为标签为0,1,2,...,9这10个类别。
当我们分别来谈论聚类和分类问题时,我们对这两个概念都不陌生。但是,当我们将两者放在一起来谈时,我们可能又会发现,我们对二者的界限是很模糊的,仿佛二者说的是同一件事情。
所以,接下来我们就来梳理一下二者到底有什么区别。
目录
聚类 Clustering
定义:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
简介
聚类,也被称作聚类分析,是一种重要的机器学习方法。聚类分析一般分为Q型聚类和R型聚类。聚类的过程一般是先根据聚类对象及实际数据特点选择合适的统计量,然后利用这个统计量对数据或变量进行聚类。下面稍作详细介绍。
聚类分析的分类
Q型聚类分析: 对样本进行聚类分析的聚类过程称为Q型聚类分析。
R型聚类分析: 对指标变量进行聚类分析的聚类过程称为R型聚类分析。
聚类分析的过程
数据预处理:是一个将数据标准化的过程,避免不同变量的量纲不同导致相似性度量的差异。
构造关系矩阵:是为了度量变量(或者样本)质量的亲疏关系 。
聚类:利用这个关系矩阵,利用不同的聚类方法进行聚类。
确定最佳分类:最后根据聚类的表现,选择最佳聚类方法和最佳类比数目。