聚类——机器学习西瓜书【1】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

参考:【聚类 — 机器学习西瓜书】 https://www.bilibili.com/video/BV1fi4y1K7Ke/share_source=copy_web&vd_source=6da2000bbad8b6439b9f6b0baafa2da9

仅个人学习使用,做个笔记,以防忘记


一、聚类任务

类别:大部分是无监督学习
目的:通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步的数学分析提供基础

二、性能度量

目的

  • 评估聚类结果的好坏
  • 确立优化的目标

结论簇内的样本尺度尽可能彼此相似,簇间的样本尽可能不同

1. 外部指标(将聚类结果与某个参考模型进行比较)

任意两个样本:样本1,样本2
|SS|:参考聚的结果和实际聚的结果均在一个簇内
|DS|:参考聚的结果在一个簇内,实际聚的结果在另一个簇内
|SD|:参考聚的结果在不同的簇内,实际聚的结果在一个簇内
|DD|:参考聚的结果和实际聚的结果均不在一个簇内

  • Jaccard系数 ∈【0,1】越大越好
  • FM指数 ∈【0,1】越大越好
  • Rand指数 ∈【0,1】越大越好

2. 内部指标(直接参考聚类结果)

avg(Ci):簇内样本的平均距离
diam(Ci):簇内样本的最大距离
dmin(Ci,C):簇间样本的最小距离
dcen(Ci,Cj):簇中心间的距离

  • DB指数越小越好
  • Dunn指数越大越好

三、距离计算

1.距离度量/非距离度量

距离度量性质:

  1. 非负性
  2. 同一性(只有a,b重合的时候为0)
  3. 对称性(a到b=b到a)
  4. 直递性(a小于等于b+c,类似三角形不等式)

2.有序属性/无序属性

  1. 有序属性:闵可夫斯基距离:欧氏距离(p=2,直角坐标系),曼哈顿距离(p=1,横平竖直),切比雪夫距离(p=∞,横纵坐标变化的最大值)
  2. 无序属性:VDM距离
  3. 混合距离:闵可夫斯基距离+VDM距离
  4. 加权距离:加上权重

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值