西瓜书学习笔记——第九章:聚类

9. 聚类9.1 聚类任务9.2 性能度量外部指标:定义外部指标内部指标定义簇内样本平均距离avg( C)簇内样本间最远距离diam( C )簇间最近样本距离$d_{min}(C)$簇中心间距$d_{cen}(C_i,C_j)$内部指标9.3 距离计算闵可夫斯基距离(Minkowski distance)曼哈顿距离(街区距离)欧氏距离切比雪夫距离根据属性的性质选择采用的距离有序属性无序属性混合属性...
摘要由CSDN通过智能技术生成

9.1 聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster)。但需注意的是,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。

聚类既能作为一个单独的过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程

9.2 性能度量

聚类性能度量也称聚类有效性指标(validity index),与监督学习中的性能度量作用类似。

  • 对聚类结果,需要通过某种性能度量来评估其好坏。
  • 若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标。

对于聚类,一般通用的度量标准为“物以类聚”,即:簇内相似度高簇间相似度低

两类性能度量:

  1. 外部指标:将聚类结果与某个参考模型(如将领域专家给出的划分结果作为参考模型)进行比较
  2. 内部指标:直接考察聚类结果而不利用任何参考模型

外部指标:

定义

在这里插入图片描述
在这里插入图片描述
注:S代表Same,D代表Different

外部指标

在这里插入图片描述

  • Rand指数(Rand Index,简称RI)

(9.7) R I = a + d C m 2 RI=\dfrac{a+d}{C_m^2}\tag{9.7} RI=Cm2a+d(9.7)
a + b a+b a+b表示与参考模型划分结果一致的样本数量

注:以上指数取值范围为[0,1],且越大越好

内部指标

定义

簇内样本平均距离avg( C)

在这里插入图片描述
某个簇内样本间的平均距离,应该越小越好

簇内样本间最远距离diam( C )

在这里插入图片描述
显然diam( C)应该越小越好

簇间最近样本距离 d m i n ( C ) d_{min}(C) dmin(C)

在这里插入图片描述
应越大越好

簇中心间距 d c e n ( C i , C j ) d_{cen}(C_i,C_j) dcen(Ci,Cj)

在这里插入图片描述
μ i \mu_i μi表示簇 C i C_i Ci的中心点

内部指标

在这里插入图片描述
在这里插入图片描述
由聚类结果的一般标准:簇内相似度高且簇间相似度高可知:

  • 对于式(9.12)的分子(簇内平均距离),应越小越好,分母则是越大越好,故整体DBI应越小越好
  • 对于式(9.13)的分子(最小簇间距离)应越大越好,分母(簇内样本最大距离)应越小越好,故整体DI应越大越好

9.3 距离计算

在这里插入图片描述
在这里插入图片描述
注:直递性常被直接称为“三角不等式”,不满足直递性的距离称为非度量距离,对于某些现实任务,我们不能使用定义好的距离公式,而是需要我们基于数据样本来确定合适的距离计算式,这可通过距离度量学习来实现
在这里插入图片描述

闵可夫斯基距离(Minkowski distance)

在这里插入图片描述
其中 p ≥ 1 p\geq 1 p1

曼哈顿距离(街区距离)

当闵可夫斯基距离表达式的 p = 1 p=1 p=1时,即为曼哈顿距离的表达式:
在这里插入图片描述

欧氏距离

当闵可夫斯基距离表达式的 p = 2 p=2 p=2时,即为欧氏距离的表达式:
在这里插入图片描述
在这里插入图片描述
注:红蓝黄都为曼哈顿距离,绿色为欧氏距离

切比雪夫距离

维基百科对切比雪夫距离的定义:

数学上,切比雪夫距离(Chebyshev distance)或是L∞度量是向量空间中的一种度量,二个点之间的距离定义为其各坐标数值差的最大值。

二维平面上两点a(x1,y1),b(x2,y2)之间的切比雪夫距离公式:
在这里插入图片描述
n维空间上两点a(x1,x2,…,xn),b(y1,y2,…,yn)的切比雪夫距离公式:
在这里插入图片描述

根据属性的性质选择采用的距离

有序属性

如{小,中,大},“小”与“中”较近,与“大”较远。显然,闵可夫斯基距离可用于有序属性

无序属性

如{飞机,火车,轮船}这样的离散属性则不能直接在属性上直接计算距离,称为无序属性。

对于无序属性可使用VDM(Value Difference Metric)
如:要计算对于出行方式这个属性上飞机和火车这两个离散值的VDM距离,即为:
∑ i = 1 k ∣ 在 簇 i 中 出 行 方 式 为 飞 机 的 人 数 出 行 方 式 为 飞 机 的 总 人 数 − 在 簇 i 中 出 行 方 式 为 火 车 的 人 数 出 行 方 式 为 火 车 的 总 人 数 ∣ \sum_{i=1}^{k}|\dfrac{在簇i中出行方式为飞机的人数}{出行方式为飞机的总人数}-\dfrac{在簇i中出行方式为火车的人数}{出行方式为火车的总人数}|

  • 6
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值