机器学习理论 | 周志华西瓜书 第十三章:半监督学习

第十三章 半监督学习

此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…


13.1 未标记样本

1、一些概念
主动学习(active learning):使用尽量少的query获得经良好的性能
半监督学习(semi-supervised learning):让学习器不依赖外界交互,自动利用未标记样本来提升学习性能

2、一些假设
聚类假设(cluster assumption):假设数据存在簇结构,同一个簇的样本属于同一个类别
流形假设(manifold assumption):假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值

3、半监督学习分类
纯半监督学习:假定训练数据中的未标记样本并非预测的数据
直推学习:假定学习过程中所考虑的未标记样本恰是预测数据

13.2 生成式方法

1、概述

  • 直接给予生成模型的方法
  • 假设所有数据都是由同一个潜在的模型“生成”

2、公式推断

  • 数据样本生成基于的概率密度: p ( x ) = ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) p(\bm x)=\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i) p(x)=i=1Nαip(xμi,Σi)
  • 推导:
    在这里插入图片描述
  • 后验概率: p ( Θ = i ∣ x ) = α i ∗ p ( x ∣ μ i , Σ i ) ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) p(\Theta=i|\bm x)=\frac{\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)}{\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)} p(Θ=ix)=i=1Nαip(xμi,Σi)αip(xμi,Σi)
  • D l ⋃ D u D_l\bigcup D_u DlDu(标记样本集 ⋃ \bigcup 未标记样本集)对数似然:
    L L ( D l ⋃ D u ) = ∑ ( x j , y j ) ∈ D l l n ( ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) ∗ p ( y j ∣ Θ = i , x j ) ) + ∑ x j ∈ D u l n ( ∑ i = 1 N α i ∗ p ( x j ∣ μ i , Σ i ) ) LL(D_l\bigcup D_u)=\sum_{(\bm x_j,y_j)\in D_l}ln(\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)*p(y_j|\Theta=i,\bm x_j))+\sum_{\bm x_j\in D_u}ln(\sum_{i=1}^N\alpha_i*p(\bm x_j|\bm\mu_i,\bm\Sigma_i)) LL(DlDu)=(xj,yj)Dlln(i=1Nαip(xμi,Σi)p(yjΘ=i,xj))+xjDuln(i=1Nαip(xjμi,Σi))

上式两部分:有监督项和无监督项

3、EM算法求解高斯混合模型的参数估计
E步:根据当前模型参数计算未标记样本xj属于各高斯混合成分的概率M步:基于γji更新模型参数(li表示第i类的有标记样本数目)μi∑iαi方法关键:模型假设必须准确

13.3 半监督SVM

代表:TSVM(Transductive Support Vector Machine)
学习目标: D u D_u Du中样本预测标记
限制条件
TSVM算法

13.4 图半监督学习

  • 基本概念:给定一个数据集可以映射为一个图(样本为点,强度为边)
  • 迭代式标记传播算法
    在这里插入图片描述

13.5 基于分歧的方法

  • 概述
    使用多学习器:多学习器之间的分歧对未标记的数据利用至关重要
    代表方法:协同训练(针对多视图数据)
  • 协同训练算法
    在这里插入图片描述

13.6 半监督聚类

聚类任务中获得的监督信息类型

  • 第一类:“必连”与“勿连”约束(根据样本是否必属于同一个簇)
  • 第二类:少量有标记样本

利用第一类监督信息的代表:约束k均值算法
在这里插入图片描述
利用第二类监督信息的代表:约束种子k均值算法
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值