第十三章 半监督学习
此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…
13.1 未标记样本
1、一些概念
主动学习(active learning):使用尽量少的query获得经良好的性能
半监督学习(semi-supervised learning):让学习器不依赖外界交互,自动利用未标记样本来提升学习性能
2、一些假设
聚类假设(cluster assumption):假设数据存在簇结构,同一个簇的样本属于同一个类别
流形假设(manifold assumption):假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值
3、半监督学习分类
纯半监督学习:假定训练数据中的未标记样本并非预测的数据
直推学习:假定学习过程中所考虑的未标记样本恰是预测数据
13.2 生成式方法
1、概述
- 直接给予生成模型的方法
- 假设所有数据都是由同一个潜在的模型“生成”
2、公式推断
- 数据样本生成基于的概率密度: p ( x ) = ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) p(\bm x)=\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i) p(x)=∑i=1Nαi∗p(x∣μi,Σi)
- 推导:
- 后验概率: p ( Θ = i ∣ x ) = α i ∗ p ( x ∣ μ i , Σ i ) ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) p(\Theta=i|\bm x)=\frac{\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)}{\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)} p(Θ=i∣x)=∑i=1Nαi∗p(x∣μi,Σi)αi∗p(x∣μi,Σi)
-
D
l
⋃
D
u
D_l\bigcup D_u
Dl⋃Du(标记样本集
⋃
\bigcup
⋃未标记样本集)对数似然:
L L ( D l ⋃ D u ) = ∑ ( x j , y j ) ∈ D l l n ( ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) ∗ p ( y j ∣ Θ = i , x j ) ) + ∑ x j ∈ D u l n ( ∑ i = 1 N α i ∗ p ( x j ∣ μ i , Σ i ) ) LL(D_l\bigcup D_u)=\sum_{(\bm x_j,y_j)\in D_l}ln(\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)*p(y_j|\Theta=i,\bm x_j))+\sum_{\bm x_j\in D_u}ln(\sum_{i=1}^N\alpha_i*p(\bm x_j|\bm\mu_i,\bm\Sigma_i)) LL(Dl⋃Du)=(xj,yj)∈Dl∑ln(i=1∑Nαi∗p(x∣μi,Σi)∗p(yj∣Θ=i,xj))+xj∈Du∑ln(i=1∑Nαi∗p(xj∣μi,Σi))
上式两部分:有监督项和无监督项
3、EM算法求解高斯混合模型的参数估计
13.3 半监督SVM
代表:TSVM(Transductive Support Vector Machine)
学习目标:
D
u
D_u
Du中样本预测标记
13.4 图半监督学习
- 基本概念:给定一个数据集可以映射为一个图(样本为点,强度为边)
- 迭代式标记传播算法
13.5 基于分歧的方法
- 概述
使用多学习器:多学习器之间的分歧对未标记的数据利用至关重要
代表方法:协同训练(针对多视图数据) - 协同训练算法
13.6 半监督聚类
聚类任务中获得的监督信息类型
- 第一类:“必连”与“勿连”约束(根据样本是否必属于同一个簇)
- 第二类:少量有标记样本
利用第一类监督信息的代表:约束k均值算法
利用第二类监督信息的代表:约束种子k均值算法