什么是聚类
聚类是一个将数据集划分为若干组(class)或类(cluster) 的过程,并使得同一个组内的数据对象具有较高的相似度; 而不同组中的数据对象是不相似的。
简单例子
根据数量和价格两个特征量,
将顾客聚类成3类(购买大量的高 价产品;购买少量的高价产品;购买少量的低价产品)。
but
聚类是一个非常困难的事情,因为在一个n维样本空间中,数据 可以以不同的形状和大小揭示类。 如在二维欧几里得空间中,上面数据可以分类三个类也可以分 为四个类,类的数量的任意性是聚类过程中的主要问题。
聚类和分类的区别
聚类是一 种无(教师)监督的学习方法。与分类不同,其不依赖于事先确定的数据类别,以及标有数据类别的学习训练样本集合。
因此,聚类是观察式学习,而不是示例式学习。
应用
两种聚类方式
对样品的分类,称为Q型
大多数是q型
(1) 可以综合利用多个变量的信息对样本进行分析。
(2) 分类结果直观,聚类谱系图清楚地表现数值分类结果
对变量(指标)的分类,称为R型
降维处理
样品间的相似度量—距离
1.欧氏距离
例1
为了得到书中的距离矩阵,我们键入命令: D= squareform(d1),
% 注意此时d1必须是一个行向量,结果 是实对称矩阵 若想得到书中的三角阵,则有命令: S = tril(squareform(d1))
下三角矩阵第i行j列代表着第i个变量和第j个变量之间的距离
属性间计算距离没有意义,用相似系数
变量间的相似度量——相似系数
公式
类间距离
最短、最长、
重心距离(先平均后算距离)、
类平均距离(算所有的距离然后再平均)