西瓜书_chapter9_聚类

本文深入探讨了无监督学习中的聚类任务,包括聚类的目的、性能度量、距离计算和多种聚类算法,如k均值、学习向量量化和高斯混合聚类。此外,还介绍了密度聚类的DBSCAN算法以及层次聚类的AGNES算法,阐述了这些方法在揭示数据内在联系和结构中的作用。
摘要由CSDN通过智能技术生成

9.1 聚类任务

在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记样本的学习来揭示数据的内在性质及规律。
本章中,我们探索其中常用的“聚类"算法。它的目的是把数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个(cluster)。
聚类既能作为一个独立的过程,去探索数据之间的内在联系,也可以作为分类等其他学习任务的前驱过程.

9.2 性能度量

聚类性能度量也叫做聚类“有效性指标”(validity index)。一方面,与监督学习中的性能度量作用类似,我们需要一种评价指标来聚类算法的好坏;另一方面,如果我们能明确最终要用的指标,那么我们就可以直接将其作为优化目标。
聚类性能度量大概有两类,一类是把聚类结果与某个参考模型进行比较,称为外部指标,另一类是直接考察聚类结果而不用任何参考模型,称为内部指标。
对于数据集 D = { x 1 , x 2 , . . . , x m } D=\{x_1,x_2,...,x_m\} D={ x1,x2,...,xm},我们假设通过聚类给出的簇划分为 C = { C 1 , C 2 , . . . , C k } C=\{C_1,C_2,...,C_k\} C={ C1,C2,...,Ck},参考模型给出的簇划分为 C ∗ = { C 1 ∗ , C 2 ∗ , . . . , C k ∗ } C^*=\{C^*_1,C^*_2,...,C^*_k\} C={ C1,C2,...,Ck}我们将样本两两匹配考虑
a = ∣ S S ∣ , S S = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ = λ j ∗ , i &lt; j } b = ∣ S D ∣ , S D = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ ≠ λ j ∗ , i &lt; j } c = ∣ D S ∣ , D S = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ = λ j ∗ , i &lt; j } d = ∣ D D ∣ , D D = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ ≠ λ j ∗ , i &lt; j } \begin{aligned} a=&amp;|SS|, &amp;SS=&amp;\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda^*_j,i\lt j\} \\ b=&amp;|SD|, &amp;SD=&amp;\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i\ne\lambda^*_j,i\lt j\} \\ c=&amp;|DS|, &amp;DS=&amp;\{(x_i,x_j)|\lambda_i\ne\lambda_j,\lambda^*_i=\lambda^*_j,i\lt j\} \\ d=&amp;|DD|, &amp;DD=&amp;\{(x_i,x_j)|\lambda_i\ne\lambda_j,\lambda^*_i\ne\lambda^*_j,i\lt j\} \end{aligned} a=b=c=d=SS,SD,DS,DD,SS=SD=DS=DD={ (xi,xj)λi=λj,λi=λj,i<j}{ (xi,xj)λi=λj,λi̸=λj,i<j}{ (xi,xj)λi̸=λj,λi=λj,i<j}{ (xi,xj)λi̸=λj,λi̸=λj,i<j}
基于以上的定义,我们可以导出下列常用的外部指标:

  • Jaccard 系数
    J C = a a + b + c JC=\frac{a}{a+b+c} JC=a+b+ca
  • FM 指数
    F M I = a a + b a a + c FMI=\sqrt{\frac{a}{a+b} \frac{a}{a+c}} FMI=a+baa+ca
  • Rand 指数
    R I = a + d m ( m − 1 ) / 2 , m = a + b + c + d RI=\frac{a+d}{m(m-1)/2},m=a+b+c+d RI=m(m1)/2a+d,m=a+b+c+d

以上的指标均分布在[0, 1]区间,越大越好。
考虑聚类结果的簇划分 C = { C 1 , C 2 , . . . , C k } C=\{C_1,C_2,...,C_k\}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值