[机器学习]半监督学习

最新推荐文章于 2023-10-13 18:08:30 发布

CristianoJason

最新推荐文章于 2023-10-13 18:08:30 发布

阅读量1.9k

点赞数 1

分类专栏：模式识别与机器学习文章标签：机器学习半监督学习

本文链接：https://blog.csdn.net/CristianoJason/article/details/79057992

版权

模式识别与机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文档记录了《机器学习》第 13 章半监督学习相关内容

未标记样本

半监督学习

学习器不依赖外界交互、自动的利用未标记样本来提升学习性能。

利用未标记样本的相关假设

本质——相似的样本具有相似的输出。

聚类假设：假设数据存在簇结构，同一个簇的样本同属一个类别。
流形假设：假设数据的分布在一个流形结构上，邻近的样本具有相似的输出值。

半监督学习的种类

纯半监督学习：假定训练数据中的未标记样本并非接下来需要预测的数据。
直推半监督学习：假定训练数据中的未标记样本正是接下来需要预测的数据。

生成式方法

假设：不论是否有标记，所有数据都是由同一个潜在的模型”生成的“，通过潜在模型的参数将未标记数据（不是对应的标签）与学习目标联系起来，未标记数据的标签可看作是模型的缺失参数。
缺陷：模型假设必须准确。

高斯混合模型生成

混合成分与类别一一对应

符号标记
- 标记样本集： $D_l=\{(x_1,y_1),(x_2,y_2),...,(x_l,y_l)\}$
- 未标记样本集： $D_u=\{x_{l+1},x_{l+2},...,x_{m=l+u}\}$
- 标签个数： $N$
- 混合系数： $\sum_{i=1}^{N}\alpha_i=1, \alpha_i\geq0$
- 高斯混合成分： $\Theta\in\{1,2,...N\}$
- 样本属于第 $i$ 个高斯混合成分的概率： $p(x|\mu_i,\Sigma_i)$
- 样本的生成概率： $p(x)=\sum_{i=1}^N\alpha_i\cdot p(x|\mu_i,\Sigma_i)$
- 样本由第 $i$ 个高斯混合成分生成的后验概率：
  
  $p (Θ = i | x) = α i \cdot p ( x | μ i , Σ i ) \sum N j = 1 α j \cdot p ( x | μ j , Σ j )$ $p(\Theta=i|x)=\frac{\alpha_i\cdot p(x|\mu_i,\Sigma_i)}{\sum_{j=1}^N\alpha_j\cdot p(x|\mu_j,\Sigma_j)}$
- 样本由第 $i$ 个高斯混合成分生成的情况下，类别为 $j$ 的概率：
  
  $p (y = j | Θ = i, x)$ $p(y=j|\Theta=i,x)$
模型预测

$f (x) = argmax j \in  \sum i = 1 N p (y = j | Θ = i, x) \cdot p (Θ = i | x)$ $f(x)=\text{argmax}_{j\in\mathcal{Y}}\sum_{i=1}^Np(y=j|\Theta=i,x)\cdot p(\Theta=i|x)$
参数更新见 P297 EM算法。

半监督 SVM（二分类）

目标

尽可能的将有标记样本分开
超平面穿过数据低密度区域划分

Transductive（直推式） SVM

形式化定义

参数：
- $C_l/C_u$ ：用于平衡模型复杂度、有/无标记样本重要程度的折中参数。
- $\mathbf{\xi}$ ：松弛向量。
目标函数：

$min w, b, y ̂, ξ 1 2 ∥ w ∥ 22 + C l \sum i = 1 l ξ i + C u \sum i = l + 1 m ξ i$ $\min_{w,b,\hat{y},\xi} \frac{1}{2}\|w\|_2^2+C_l\sum_{i=1}^l\xi_i+C_u\sum_{i=l+1}^m\xi_i$
约束条件：
- 对有标记样本： $y_i(w^\top x_i+b)\geq 1-\xi_i$
- 对无标记样本： $\hat{y}_i(w^\top x_i+b)\geq 1-\xi_i$
- 松弛向量： $\xi_i\geq0$

算法实现

输入：
- 标记样本集： $D_l=\{(x_1,y_1),(x_2,y_2),...,(x_l,y_l)\}$
- 未标记样本集： $D_u=\{x_{l+1},x_{l+2},...,x_{m=l+u}\}$
- 折中参数： $C_l/C_u$
输出：未标记样本的预测结果 $\hat{y}$

算法：

SVM_l = train(D_l) # 有标签数据训练
y_hat = SVM_l.predicate(D_u) # 无标签数据预测
C_u.init() << C_l.init()
while C_u < C_l do
    (w,b),xi = SVM_l.optimize(D_l,D_u,y_hat,C_l,C_u) # 根据目标函数优化模型参数
    # 若存在一对未标记样本 (x_i,x_j)，它们的指派标记不同，且对应的松弛变量之和过大，说明它们的指派标记很可能是错的
    def traverse(y_hat):
        if y_hat[i]*y_hat[j]<0 and xi[i]>0 and xi[j]>0 and xi[i]+xi[j]>2:
            y_hat[i] = -y_hat[i]
            y_hat[j] = -y_hat[j]
            (w,b),xi = SVM_l.optimize(D_l,D_u,y_hat,C_l,C_u)
    C_u = min(2*C_u,C_l)
end while