1. 摘要
我们介绍了插值一致性训练 (ICT)
,这是一种简单且计算效率高的算法,用于在半监督学习范式中训练深度神经网络。 ICT 鼓励在未标记点的插值上的预测与在这些点的预测的插值一致
。在分类问题中,ICT 将决策边界移动到数据分布的低密度区域。我们的实验表明,当应用于 CIFAR-10 和 SVHN 基准数据集上的标准神经网络架构时,ICT 实现了最佳性能。我们的理论分析表明,ICT 对应于某种类型的具有未标记点的数据自适应正则化,从而减少了在高置信度值下对标记点的过度拟合。
Notice:
在摘要中我们获取不到太多的关键信息,大佬的论文大多如此🤦♂️。但是可以捕捉到一个关键词,插值
。
2. 前置知识
2.1 一致性正则化
半监督学习的重点是利用无标记数据来提升算法的正确率。其中,一致性正则化是半监督学习中的一种利用无标记样本的方案。一致性表现在对于无标记样本 u u u, f ( u ) = f ( u + σ ) f(u) = f(u+ \sigma) f(u)=f(u+σ),其中 σ \sigma σ表示对于无标记样本 u u u的扰动。对于扰动的定义,有很多顶会文章【Ladder Network, Π \Pi Π model, Mean-Teacher】。一致性正则化强制模型执行低密度分离假设。当且仅当决策边界穿过低密度路径时,才能同时满足这种一致性和小的预测误差。
2.2 插值算法
3. ICT
L
=
L
S
+
w
(
t
)
⋅
L
U
S
(1)
L = L_S + w(t)\cdot L_{US} \tag{1}
L=LS+w(t)⋅LUS(1),
其中
L
S
L_S
LS表示有监督损失,在分类问题上一般采用交叉熵损失。
w
(
t
)
w(t)
w(t)是一个随时间增加的参数,表示无监督样本逐步参与训练。
L
U
S
L_{US}
LUS表示无监督损失,也是这篇论文的贡献。
L
U
S
=
E
u
j
,
u
k
∼
P
X
E
λ
∼
Beta
(
α
,
α
)
ℓ
(
f
θ
(
Mix
λ
(
u
j
,
u
k
)
)
,
Mix
λ
(
f
θ
′
(
u
j
)
,
f
θ
′
(
u
k
)
)
)
(2)
\mathcal{L}_{U S}=\underset{u_j, u_k \sim P_X}{\mathbb{E}} \underset{\lambda \sim \operatorname{Beta}(\alpha, \alpha)}{\mathbb{E}} \ell\left(f_\theta\left(\operatorname{Mix}_\lambda\left(u_j, u_k\right)\right), \operatorname{Mix}_\lambda\left(f_{\theta^{\prime}}\left(u_j\right), f_{\theta^{\prime}}\left(u_k\right)\right)\right)\tag{2}
LUS=uj,uk∼PXEλ∼Beta(α,α)Eℓ(fθ(Mixλ(uj,uk)),Mixλ(fθ′(uj),fθ′(uk)))(2)
Mix λ ( u j , u k ) = λ u j + ( 1 − λ ) u k (3) \operatorname{Mix}_\lambda(u_j, u_k) = \lambda u_j + (1- \lambda)u_k \tag{3} Mixλ(uj,uk)=λuj+(1−λ)uk(3)
其中,注意 θ ′ \theta' θ′是 θ \theta θ的时间滑动平均,可以参考Mean-Teacher。
4. 总结
插值正则化,看起来像是纯粹的暴力美学,但是在原论文中给出了一系列的推导,我准备不求甚解一波儿。