提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
聚类——机器学习西瓜书【1】
前言
参考:【聚类 — 机器学习西瓜书】 https://www.bilibili.com/video/BV1fi4y1K7Ke/share_source=copy_web&vd_source=6da2000bbad8b6439b9f6b0baafa2da9
仅个人学习使用,做个笔记,以防忘记
一、聚类任务
类别:大部分是无监督学习
目的:通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步的数学分析提供基础
二、性能度量
目的:
- 评估聚类结果的好坏
- 确立优化的目标
结论:簇内的样本尺度尽可能彼此相似,簇间的样本尽可能不同
1. 外部指标(将聚类结果与某个参考模型进行比较)
任意两个样本:样本1,样本2
|SS|:参考聚的结果和实际聚的结果均在一个簇内
|DS|:参考聚的结果在一个簇内,实际聚的结果在另一个簇内
|SD|:参考聚的结果在不同的簇内,实际聚的结果在一个簇内
|DD|:参考聚的结果和实际聚的结果均不在一个簇内
- Jaccard系数 ∈【0,1】越大越好
- FM指数 ∈【0,1】越大越好
- Rand指数 ∈【0,1】越大越好
2. 内部指标(直接参考聚类结果)
avg(Ci):簇内样本的平均距离
diam(Ci):簇内样本的最大距离
dmin(Ci,C):簇间样本的最小距离
dcen(Ci,Cj):簇中心间的距离
- DB指数越小越好
- Dunn指数越大越好
三、距离计算
1.距离度量/非距离度量
距离度量性质:
- 非负性
- 同一性(只有a,b重合的时候为0)
- 对称性(a到b=b到a)
- 直递性(a小于等于b+c,类似三角形不等式)
2.有序属性/无序属性
- 有序属性:闵可夫斯基距离:欧氏距离(p=2,直角坐标系),曼哈顿距离(p=1,横平竖直),切比雪夫距离(p=∞,横纵坐标变化的最大值)
- 无序属性:VDM距离
- 混合距离:闵可夫斯基距离+VDM距离
- 加权距离:加上权重