[半监督学习] Temporal Ensembling for Semi-Supervised Learning

码侯烧酒

已于 2022-02-23 20:46:50 修改

阅读量1.6k

点赞数 4

分类专栏：论文文章标签：深度学习机器学习神经网络

于 2022-01-24 17:26:41 首次发布

本文链接：https://blog.csdn.net/by6671715/article/details/122667631

版权

论文专栏收录该内容

27 篇文章 15 订阅

订阅专栏

论文地址: Temporal Ensembling for Semi-Supervised Learning
代码地址: https://github.com/s-laine/tempens
会议: ICLR 2017
任务: 分类

self-ensembling

self-ensembling 即自集成, 自己集成自己. 对于神经网络来说, 一个样本如果多次送入网络, 能够产生多个模型预测结果, 这些结果可以进行融合, 同时在不同的 batch 训练之后, 模型的参数也会发生变化, 参数可以进行融合, 因此, self-ensembling 的套路在于集成模型预测结果或者模型参数.

论文中提出两种自集成的实现: $\Pi$ -model, Temporal ensembling

文中符号定义如下:

$N$ 为训练集大小.
$M$ 为带标签的样本个数.
${x_i\}_{i=1}^N$ 为训练集中的每个样本 .
$L$ 为每个样本的索引集合, 且 $\vert L \vert =M$ .
对于每个 $\in L$ , 对应一个正确的标签 $y_i \in \{1,\dots,C\}$ , $C$ 为不同类别的数量.
$w (t)$ 为无监督权重 ramp-up 函数.
$f_\theta(x)$ 为具有可训练参数 $\theta$ 的随机神经网络.
$g (x)$ 为随机输入增强函数.
$\alpha$ 为 ensembling momentum.

$\Pi$ -model

模型中损失函数由两个部分组成: 1.标准交叉熵损失, 仅针对有标记输入进行评估. 2.对无标记输入进行评估, 取预测向量 $z_i$ 和 $\tilde{z}_i$ 之间的均方差. 为了结合监督和非监督损失项, 在之后通过加权函数 $w (t)$ 进行缩放操作.

训练过程的每一个 epoch 中, 一个标签样本前向传播两次, 通过 data augmentation 和 dropout 注入扰动, 由于前向传播两次, 所以得到两个预测向量 $z_i$ 和 $\tilde{z}_i$ , 然后计算均方误差. 基于一致性正则化, 模型希望在注入扰动后得到的结果应该与原来一致, 所以, $\Pi$ -model 希望 $z_i$ 和 $\tilde{z}_i$ 尽可能一致.

对于有标签样本, 前向传播一次, 注入扰动后在预测值与真实值之间进行交叉熵计算. 最后将两个损失函数进行加权求和即为损失函数 $l o s s$ .

$\Pi$ -model 模型如下图所示:
在这里插入图片描述
需要注意的是, 由于 dropout 正则化, 训练期间的网络输出是一个随机变量. 因此, 在相同网络权重 $\theta$ 下对相同输入 $x_i$ 的两次评估会产生不同的结果. 此外, 高斯噪声和诸如随机平移之类的增强被评估了两次, 从而产生了额外的变化.

$\Pi$ -model 算法流程如下图所示:
在这里插入图片描述
对于一个 mini-batch 中的所有 $x_i$ :

1.计算两次 augmentation 后的值, 分别为 $z_i$ 和 $\tilde{z}_i$ .
2.使用损失函数 $l o s s$ 对参数 $\theta$ 进行更新.
重复1,2直到退出循环. 最终得到学习完成的参数 $\theta$ .

在此实现中, 无监督损失加权函数 $w (t)$ 从零开始 ramp-up, 这个权重随时间变化而变化, 即 time-dependent. 其在前 80 个 epoch 中沿着高斯曲线上升. 同时文中发现 ramp-up 的上升速度要足够慢才行, 不然, 网络很容易陷入退化的解, 无法获得有意义的数据分类.

下面代码来自 mean-teacher 中的 ramp-down 策略

def cosine_rampdown(current, rampdown_length):
    """Cosine rampdown from https://arxiv.org/abs/1608.03983"""
    assert 0 <= current <= rampdown_length
    return float(.5 * (np.cos(np.pi * current / rampdown_length) + 1))

Temporal ensembling

在这里插入图片描述
与 $\Pi$ -model 相比, 训练过程的每一个 epoch 中, 一个无标签样本只前向传播一次, 而另一次则使用之前 epoch 得到的预测结果来充当, 具体做法为用指数平滑(EMA)来计算. 这时, 每个样本在每个 epoch 只通过了一次评估, 比 $\Pi$ -model 的速度快了近2倍.
在这里插入图片描述

1.初始化 $Z$ , $\tilde{z}$ , 分别为 $\times C$ 的预测结果矩阵和目标向量.
2.在每个 epoch t 中, 对每个 mini-batch $B$ 执行:
- 评估增强输入的网络输出 $z_{i \in B}$ .
- 使用损失函数 $l o s s$ 对参数 $\theta$ 进行更新.
3.通过指数滑动平均(EMA)更新 $\gets \alpha Z+(1-\alpha)z$ .
4.通过偏差校正目标向量 $\tilde{z} \gets Z/(1-\alpha^t)$ .
循环结束后获得最终参数 $\theta$ .