【论文阅读】Interpolation Consistency Training for Semi-Supervised Learning

最新推荐文章于 2022-11-07 19:33:17 发布

来日可期1314

最新推荐文章于 2022-11-07 19:33:17 发布

阅读量636

点赞数

分类专栏：论文阅读文章标签：论文阅读机器学习深度学习

本文链接：https://blog.csdn.net/ssjq123/article/details/127415783

版权

论文阅读专栏收录该内容

29 篇文章 0 订阅

订阅专栏

论文下载

1. 摘要

我们介绍了插值一致性训练 (ICT)，这是一种简单且计算效率高的算法，用于在半监督学习范式中训练深度神经网络。 ICT 鼓励在未标记点的插值上的预测与在这些点的预测的插值一致。在分类问题中，ICT 将决策边界移动到数据分布的低密度区域。我们的实验表明，当应用于 CIFAR-10 和 SVHN 基准数据集上的标准神经网络架构时，ICT 实现了最佳性能。我们的理论分析表明，ICT 对应于某种类型的具有未标记点的数据自适应正则化，从而减少了在高置信度值下对标记点的过度拟合。

Notice: 在摘要中我们获取不到太多的关键信息，大佬的论文大多如此🤦‍♂️。但是可以捕捉到一个关键词，插值。

2. 前置知识

2.1 一致性正则化

在这里插入图片描述

半监督学习的重点是利用无标记数据来提升算法的正确率。其中，一致性正则化是半监督学习中的一种利用无标记样本的方案。一致性表现在对于无标记样本 $u$ ， $\sigma)$ ，其中 $\sigma$ 表示对于无标记样本 $u$ 的扰动。对于扰动的定义，有很多顶会文章【Ladder Network， $\Pi$ model， Mean-Teacher】。一致性正则化强制模型执行低密度分离假设。当且仅当决策边界穿过低密度路径时，才能同时满足这种一致性和小的预测误差。

2.2 插值算法

参考链接

3. ICT

$L_S + w(t)\cdot L_{US} \tag{1}$ ,
其中 $L_S$ 表示有监督损失，在分类问题上一般采用交叉熵损失。 $w (t)$ 是一个随时间增加的参数，表示无监督样本逐步参与训练。 $L_{US}$ 表示无监督损失，也是这篇论文的贡献。
$\mathcal{L}_{U S}=\underset{u_j, u_k \sim P_X}{\mathbb{E}} \underset{\lambda \sim \operatorname{Beta}(\alpha, \alpha)}{\mathbb{E}} \ell\left(f_\theta\left(\operatorname{Mix}_\lambda\left(u_j, u_k\right)\right), \operatorname{Mix}_\lambda\left(f_{\theta^{\prime}}\left(u_j\right), f_{\theta^{\prime}}\left(u_k\right)\right)\right)\tag{2}$

$\operatorname{Mix}_\lambda(u_j, u_k) = \lambda u_j + (1- \lambda)u_k \tag{3}$

其中，注意 $\theta'$ 是 $\theta$ 的时间滑动平均，可以参考Mean-Teacher。

4. 总结

插值正则化，看起来像是纯粹的暴力美学，但是在原论文中给出了一系列的推导，我准备不求甚解一波儿。

来日可期1314

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
【论文阅读】Interpolation Consistency Training for Semi-Supervised Learning

我们介绍了插值一致性训练 (ICT)，这是一种简单且计算效率高的算法，用于在半监督学习范式中训练深度神经网络。ICT 鼓励在未标记点的插值上的预测与在这些点的预测的插值一致。在分类问题中，ICT 将决策边界移动到数据分布的低密度区域。我们的实验表明，当应用于 CIFAR-10 和 SVHN 基准数据集上的标准神经网络架构时，ICT 实现了最佳性能。我们的理论分析表明，ICT 对应于某种类型的具有未标记点的数据自适应正则化，从而减少了在高置信度值下对标记点的过度拟合。
复制链接

扫一扫