聚类分析基础

什么是聚类

聚类是一个将数据集划分为若干组(class)或类(cluster) 的过程,并使得同一个组内的数据对象具有较高的相似度; 而不同组中的数据对象是不相似的。

简单例子

根据数量和价格两个特征量,

将顾客聚类成3类(购买大量的高 价产品;购买少量的高价产品;购买少量的低价产品)。

but

聚类是一个非常困难的事情,因为在一个n维样本空间中,数据 可以以不同的形状和大小揭示类。 如在二维欧几里得空间中,上面数据可以分类三个类也可以分 为四个类,类的数量的任意性是聚类过程中的主要问题。

 聚类和分类的区别

聚类是一 种无(教师)监督的学习方法。与分类不同,其不依赖于事先确定的数据类别,以及标有数据类别的学习训练样本集合。

因此,聚类是观察式学习,而不是示例式学习。

应用

 两种聚类方式

对样品的分类,称为Q型

大多数是q型

(1) 可以综合利用多个变量的信息对样本进行分析。

(2) 分类结果直观,聚类谱系图清楚地表现数值分类结果

对变量(指标)的分类,称为R型

降维处理

样品间的相似度量—距离

1.欧氏距离 

例1

为了得到书中的距离矩阵,我们键入命令: D= squareform(d1),

% 注意此时d1必须是一个行向量,结果 是实对称矩阵 若想得到书中的三角阵,则有命令: S = tril(squareform(d1))

下三角矩阵第i行j列代表着第i个变量和第j个变量之间的距离

属性间计算距离没有意义,用相似系数

变量间的相似度量——相似系数

公式 

 类间距离

最短、最长、

重心距离(先平均后算距离)、

类平均距离(算所有的距离然后再平均)

谱系聚类法

 k-means聚类分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值