9.1 聚类任务
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster)。但需注意的是,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
聚类既能作为一个单独的过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。
9.2 性能度量
聚类性能度量也称聚类有效性指标(validity index),与监督学习中的性能度量作用类似。
- 对聚类结果,需要通过某种性能度量来评估其好坏。
- 若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标。
对于聚类,一般通用的度量标准为“物以类聚”,即:簇内相似度高且簇间相似度低。
两类性能度量:
- 外部指标:将聚类结果与某个参考模型(如将领域专家给出的划分结果作为参考模型)进行比较
- 内部指标:直接考察聚类结果而不利用任何参考模型
外部指标:
定义
注:S代表Same,D代表Different
外部指标
- Rand指数(Rand Index,简称RI)
(9.7) R I = a + d C m 2 RI=\dfrac{a+d}{C_m^2}\tag{9.7} RI=Cm2a+d(9.7)
a + b a+b a+b表示与参考模型划分结果一致的样本数量
注:以上指数取值范围为[0,1],且越大越好
内部指标
定义
簇内样本平均距离avg( C)
某个簇内样本间的平均距离,应该越小越好
簇内样本间最远距离diam( C )
显然diam( C)应该越小越好
簇间最近样本距离 d m i n ( C ) d_{min}(C) dmin(C)
应越大越好
簇中心间距 d c e n ( C i , C j ) d_{cen}(C_i,C_j) dcen(Ci,Cj)
μ i \mu_i μi表示簇 C i C_i Ci的中心点
内部指标
由聚类结果的一般标准:簇内相似度高且簇间相似度高可知:
- 对于式(9.12)的分子(簇内平均距离),应越小越好,分母则是越大越好,故整体DBI应越小越好
- 对于式(9.13)的分子(最小簇间距离)应越大越好,分母(簇内样本最大距离)应越小越好,故整体DI应越大越好
9.3 距离计算
注:直递性常被直接称为“三角不等式”,不满足直递性的距离称为非度量距离,对于某些现实任务,我们不能使用定义好的距离公式,而是需要我们基于数据样本来确定合适的距离计算式,这可通过距离度量学习来实现
闵可夫斯基距离(Minkowski distance)
其中 p ≥ 1 p\geq 1 p≥1
曼哈顿距离(街区距离)
当闵可夫斯基距离表达式的 p = 1 p=1 p=1时,即为曼哈顿距离的表达式:
欧氏距离
当闵可夫斯基距离表达式的 p = 2 p=2 p=2时,即为欧氏距离的表达式:
注:红蓝黄都为曼哈顿距离,绿色为欧氏距离
切比雪夫距离
维基百科对切比雪夫距离的定义:
数学上,切比雪夫距离(Chebyshev distance)或是L∞度量是向量空间中的一种度量,二个点之间的距离定义为其各坐标数值差的最大值。
二维平面上两点a(x1,y1),b(x2,y2)之间的切比雪夫距离公式:
n维空间上两点a(x1,x2,…,xn),b(y1,y2,…,yn)的切比雪夫距离公式:
根据属性的性质选择采用的距离
有序属性
如{小,中,大},“小”与“中”较近,与“大”较远。显然,闵可夫斯基距离可用于有序属性。
无序属性
如{飞机,火车,轮船}这样的离散属性则不能直接在属性上直接计算距离,称为无序属性。
如:要计算对于出行方式这个属性上飞机和火车这两个离散值的VDM距离,即为:
∑ i = 1 k ∣ 在 簇 i 中 出 行 方 式 为 飞 机 的 人 数 出 行 方 式 为 飞 机 的 总 人 数 − 在 簇 i 中 出 行 方 式 为 火 车 的 人 数 出 行 方 式 为 火 车 的 总 人 数 ∣ \sum_{i=1}^{k}|\dfrac{在簇i中出行方式为飞机的人数}{出行方式为飞机的总人数}-\dfrac{在簇i中出行方式为火车的人数}{出行方式为火车的总人数}|