(《机器学习》完整版系列)第13章 半监督学习——13.6 半监督聚类(k均值算法+约束)

文章介绍了在k均值算法基础上结合监督信息的半监督聚类方法,包括约束k均值算法和约束种子k均值算法。约束k均值算法考虑了“必连”和“勿连”的约束条件,避免了矛盾的样本分配;约束种子算法则利用少量标记样本作为种子来初始化聚类中心,并保持其簇隶属关系不变。
摘要由CSDN通过智能技术生成

我们已学习了 k k k均值算法,在此基础上若加上一些监督信息,则得到半监督聚类。

半监督聚类

对照 k k k均值算法【西瓜书图9.2】算法学习【西瓜书图13.7】和【西瓜书图13.9】算法。

(1)约束 k k k均值算法【西瓜书图13.7】

将“必连”和“勿连”的约束,作为监督信息,其基本要点是在【西瓜书图9.2】的 k k k均值算法程序中,将 x i \boldsymbol{x}_i xi划入聚类簇时,需要判断是否有违背约束(算法的第10句),这里补充检验算法。

考虑一个样本出发有多个“必连”和多个“勿连”约束。 设实线为“必连”,虚线为“勿连”。

初始化时,对既有“必连”又有“勿连”形成的三角形进行检查,图13.4 中的(a)产生矛盾,报错;(b)为合法情况。
图13.4 约束

图13.4 约束

算法的第10句,需要对 x i \boldsymbol{x}_i xi C r C_r Cr中样本的情况进行讨论:

(i) x i \boldsymbol{x}_i xi C r C_r Cr中样本 x j \boldsymbol{x}_j xj既无“必连”又无“勿连”,即 x i \boldsymbol{x}_i xi可根据其他条件确定是否划入 C r C_r Cr
i s _ v i o l a t e d = f a l s e \begin{align*} \mathrm{is\_violated=false} \end{align*} is_violated=false

(ii) x i \boldsymbol{x}_i xi C r C_r Cr中样本 x j \boldsymbol{x}_j xj有“必连”无“勿连”,即 x i \boldsymbol{x}_i xi可划入 C r C_r Cr
i s _ v i o l a t e d = f a l s e \begin{align*} \mathrm{is\_violated=false} \end{align*} is_violated=false

(iii) x i \boldsymbol{x}_i xi C r C_r Cr中样本 x j \boldsymbol{x}_j xj无“必连”有“勿连”,即 x i \boldsymbol{x}_i xi不可划入 C r C_r Cr
i s _ v i o l a t e d = t r u e \begin{align*} \mathrm{is\_violated=true} \end{align*} is_violated=true

(iv) x i \boldsymbol{x}_i xi C r C_r Cr中样本 x j \boldsymbol{x}_j xj既有“必连”也有“勿连”,出现如下图13.5 矛盾情况,这时报错。
图13.5

图13.5 矛盾

(2)约束种子 k k k均值算法【西瓜书图13.9】

监督信息是少量有标记样本,基本要点是:

(i) 将有标记样本作为“种子”,以此来初始化聚类中心 μ i \boldsymbol{\mu }_i μi,第1至3句;

(ii) 不改变“种子”的簇隶属关系,以此来初始化各簇,第6至10句。

(iii) 对非种子样本,按 k k k均值算法【西瓜书图9.2】中的方法归入各簇,第11至15句。

(iv) 调整簇中心,第16至18句,进入下一轮循环(第4句),直至停机条件满足(第19句)。

本文为原创,您可以:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值