Regularizing Deep Networks with Semantic Data Augmentation 论文学习

最新推荐文章于 2022-06-12 19:08:02 发布

calvinpaean

最新推荐文章于 2022-06-12 19:08:02 发布

阅读量1.8k

点赞数 6

分类专栏：深度学习图像识别目标检测

本文链接：https://blog.csdn.net/calvinpaean/article/details/113242425

版权

深度学习同时被 3 个专栏收录

139 篇文章

订阅专栏

目标检测

86 篇文章

订阅专栏

图像识别

81 篇文章

订阅专栏

本文提出了一种新颖的语义数据增广算法，称为隐式语义数据增广(ISDA)，用于深度网络的训练。不同于传统的数据增广方法，ISDA在特征空间内寻找具有语义意义的方向，通过线性转化增加数据多样性。该方法基于深度网络特征的线性性质，通过在线估计类别条件协方差矩阵来采样语义方向，无需额外的生成网络。此外，作者推导出期望交叉熵损失的上界，实现了高效的数据增广，同时证明ISDA等价于最小化一个鲁棒的损失函数。ISDA不仅适用于监督学习，还能应用于半监督学习任务，通过最小化增广特征和原始特征的KL散度。实验表明ISDA能显著提高模型在多个数据集上的泛化性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

众所周知，数据增广是正则化深度网络简单而有效的办法。传统的数据增广方法如翻转、平移或旋转都是低级别、与数据无关且类别无关的操作，导致增广样本的多样性很有限。本文提出了一个新颖的语义数据增广算法，弥补传统方法的不足。该方法受深度网络的一些特性启发，深度网络善于学习线性特征，即深度特征空间内特定方向对应的、有意义的语义变换，比如改变目标的背景或视角。基于此发现，沿着特征空间内的这些方向转化在训练样本，就可以有效地扩充数据集的多样性。为了实现这个想法，作者首先介绍了一个采样方法，它可以有效地给出语义上意义丰富的方向。然后就可算出增广之后的训练集的交叉熵损失的期望上界，我们假设增广样本的数量是无穷的，从而得到一个极其高效的算法。作者证明了该隐式语义数据增广算法（ISDA）实际上是最小化一个新的鲁棒 CE 损失，只会增加训练过程很少的计算开支。此外，ISDA 可以用在半监督任务上，最小化增广特征和原始特征之间的期望 KL 散度。尽管很简单，ISDA 在诸多数据集上可持续地提升模型的泛化性能。代码位于：https://github.com/blackfeather-wang/ISDA-for-Deep-Networks。

1. Introduction

数据增广是缓解网络训练过程中过拟合问题的有效方式。在图像识别领域，通常的变换会保留内容，如对输入样本做裁剪、水平镜像、旋转和色彩微调。尽管有效，这些增广方法不能执行语义变换，如改变目标的背景或前景目标的纹理。最近的一些工作证明，如果能使用语义变换，数据增广可以变得更加强大。例如，在训练集内给每个类别训练一个 GAN，我们就可以从中得到无穷多的样本。不幸的是，该过程会很消耗算力，因为 GAN 的训练和推理都非常繁琐。此外，由于额外的增广数据，该训练过程可能会拉长。

本文中，作者为深度网络的训练提出了一个隐式的语义数据增广算法。

在这里插入图片描述
图1. 传统增广方法和语义数据增广方法比较。传统方法通常在像素空间使用一些朴素的变换（翻转、旋转、平移等）。保留类别身份的语义变换（如修改汽车的颜色、修改目标的背景等）是另一个有效的增广训练数据的方法，可弥补传统方法的不足。

ISDA 非常有效，不需要任何训练/推理辅助网络，或显式地生成额外的训练样本。该方法受到最近一些工作启发，它们证明了网络的特征通常是线性的。在深度特征空间中存在许多的语义方向，沿着一个方向来转化数据样本，就会得到一个新的特征表示，该特征表示与其它的样本类别身份相同，而语义信息不同。例如，某个方向可以是戴眼镜的语义转化。一个不戴眼镜的人的特征，沿此方向转化，就会得到这个人戴眼镜的特征（使用合适的算法就可显式地重建该图像）。因此我们搜索这些语义方向，辅以传统的增广方法，就可有效地增大训练集。

但是，找到语义方向并不简单，通常需要大量的人工标注。而随机选择个方向很高效，但是很多变换没有意义。例如，给汽车类别加上眼镜就没有意义。本文，作者采用了一个简单的方法，在效率和有效性方面实现平衡。对每个类别，我们都会在线估计其特征的协方差矩阵，得到类内方差。然后利用估计的协方差，从一个零均值多元正态分布中选择方向，将之用在该类训练样本的特征中，增广数据集。这样，生成无意义语义变换的几率就大幅度降低了。

为了进一步提高效率，作者利用数据增广策略，推导出了期望交叉熵损失的上界的封闭解。所以，作者没有显式地进行增广，而是直接最小化该上界，它是一个新的、鲁棒的损失函数替代方案。因此我们无需生成数据样本，故称之为隐式的语义数据增广。与现有语义数据增广算法相比，ISDA 能够方便地加入大多数深度算法中，不会带来任何算力增加。

除了监督任务，作者进一步将 ISDA 应用到半监督领域，训练数据中只有一小部分有标签。对于有标签的数据，我们直接最小化前面提到的上界，作为替代损失。对于未标注数据，由于无法直接获取ISDA的替代损失，作者认为可以增强它们的语义相容性。具体说，ISDA 会进行保留类别身份的语义变换，这不应该影响模型类别的预测，作者对未标注数据的深度特征做增广，最小化增广特征预测和原始特征预测之间的 KL 散度。期望 KL 散度的上界就可以得到，作为优化的目标。ISDA 可以和现有的 SOTA 深度半监督学习算法一起使用，可以极大地提高它们的性能。

尽管 ISDA 很简单，但极其有效。作者在监督/半监督图像分类任务（CIFAR、SVHN和ImageNet），以及语义分割任务（CityScape）上做了大量的实验。结果表明，ISDA 可持续地提升模型的泛化能力，可以学到更好的特征表示。

本文的部分结果之前发表在了[16]。但是，本论文在多个方面扩展了该工作：

在深度半监督学习任务上扩展了 ISDA 算法，在多个广泛采用的图像分类基准上做了评估；
用多个网络（如 ResNets、ResNeXts 和 DenseNets），在 ImageNet 上提供了更多的结果（表1）；
进一步将该算法应用到了语义分割任务（表7），并报告了结果；
给出了分析结果，包括上界的 t-SNE 可视化、灵敏性测试和经验分析。

在这里插入图片描述

图2. ISDA 的概览。特征空间内的特定方向对应着意义丰富的语义变换，受此启迪，作者认为我们可以沿着这些语义方向来转化特征，增广训练数据，这不需要多余的深度网络辅助。我们从零均值正态分布中随机采样向量，加上动态估计的类别条件协方差矩阵，就可得到这些方向。此外，ISDA 没有显式地增广数据，而是对增广训练集的期望交叉熵损失的封闭上界做最小化处理，这就使得该方法效率很高。

2. Related Work

这一部分，作者简单回顾了现有的方法。

数据增广是正则化深度网络的常用方法。例如，在图像识别任务上，人们经常使用增广方法如随机翻转、镜像和旋转，增强卷积网络的几何不变性。这些经典的技巧对深度模型取得高泛化性至关重要。有些文献会丢弃训练图像中的特定信息来增广数据，也很有效。Cutout 和随机擦除方法会随机地裁剪图像中一个长方形区域，进行增广。此外，一些研究聚焦在自动数据增广技术上，如 AutoAugment 利用强化学习，从一堆候选方案中搜索更优的增广策略。AutoAugment 的主要顾虑就是算力、时间消耗过大。与本文方法类似，将边缘特征损坏可以看作为一个隐式的数据增广方法，但是只能用简单的线性模型。特征迁移学习在特征空间中，直接增广代表性低的数据，但是它仅关注不均衡的人脸数据。最近一些研究证明，语义数据增广方法是非常有效的，它们对训练数据进行保留类别身份的变换（如修改目标的背景或视角）。这一般是通过生成额外的语义变换训练样本实现，通过特殊深度结构如 DAGAN、域适应网络或其它基于 GAN 的生成器。尽管有效，这些方法都非常麻烦，消耗算力和时间。

鲁棒的损失函数。本文证明，ISDA 就是最小化一个新的鲁棒损失函数。所以，作者简单回顾了该方向的相关工作。最近，人们提出了多个鲁棒的损失函数，提升模型的泛化性。例如 $L_q$ 损失用于平衡交叉熵损失和均值绝对错误损失（MAE），MAE 出自负的 Box-Cox 变换。它设计的目的是在训练集中得到鲁棒性，抵消问题标签的影响，但也提升了模型的泛化能力。Focal Loss 将高权值赋给难例样本，防止容易样本的泛滥，影响网络训练。[27] [28] [29] 研究给 CE 损失加入一个大的决策边界。这些方法提出最大化不同类别样本的深度特征之间的余弦距离，缓解训练样本和真实分布的差异。[30] 中，CE损失和 contrastive 损失结合起来，学习更具判别力的特征。Center Loss 学习每个类别深度特征的中心点，然后惩罚样本和对应类别中心点的距离，增强类内紧凑度和类间差异度。

深度特征的语义变换。CNN 学到的高级别特征表示可以获取抽象的语义信息，本文受此启发。实际上，沿着特定方向来转化深度特征，可以对输入图像进行有意义的语义变换。例如，深度特征插值利用预训练网络提供的特征的线性变换来编辑图像的语义信息。VAE 和 GAN 方法则构建一个有关图像抽象的隐藏表示，可以用于语义变换。这些方法都揭示了，特征空间中语义意义丰富的方向可以用于高效率的语义数据增广。

不确定性建模 与本文类似，以前关于不确定性的工作也假设深度特征或每个样本预测呈高斯分布。例如，在人脸识别和行人重识别领域，使用概率表示来解决模糊人脸和数据标签噪音的问题。在多任务学习中，使用同方差任务不确定性学习不同任务的权重。该方法也用于目标检测，对边框不确定性进行建模。ISDA 算法旨在在语义层面增强训练数据，本文出发点就和这些工作不同。此外，ISDA 包含了一些新技术，如估计类别条件协方差矩阵和替代损失的求导。

深度半监督学习。因为ISDA可用于半监督学习任务，作者也简单地回顾了该领域的工作。对于当前的深度学习，训练集的准确标注通常很费时费力。为了节约标注成本，可以在小部分标注数据和大部分未标注数据上进行训练，这就是半监督学习。该领域方法主要可以分为两类，基于教师的方法和基于扰动的方法。前者会构建一个教师模型，为未标注数据提供监督。例如，temporal ensemble 将未标注样本的 moving averaged 预测作为假标签。Mean 教师对模型的参数做指数 moving average 得到教师网络。另一方面，扰动方法则会给输入图像加入一些干扰，强迫扰动图像和原始图像的预测结果一致。VAT 提出使用对抗扰动。II 模型则最小化相同图片不同增广机制的均值平方距离。作为一个增广方法，半监督 ISDA 算法可以作为上述方法的补充。

3. 深度特征空间的语义变换

深度网络善于从深度特征空间提取高级别特征，而样本间的语义关系可以通过深度特征的空间位置获取。以前的工作已经证明了，朝特定方向转化特征对应着意义丰富的语义变换，当特征映射回输入空间时。我们可以利用该发现去编辑图像的语义。图3是一个例子。假设我们要将一辆蓝色汽车的图像输入网络，得到其特征。然后如果我们沿着“修改颜色”或“修改背景”的方向来转化深度特征，我们就会得到相应汽车的图像，汽车仍是那个汽车，但是变为了红色或不同的背景。

基于此特性，作者提出，沿着意义丰富的语义方向转化相应的深度特征，就可以增广训练数据的语义。该方法非常高效率，与传统方法相比。传统方法为了实现语义修改，需要训练、部署和推理深度生成器如 cycle-GAN 或 W-GAN。该过程非常耗时耗力。然而，转化深度特征不会带来多少线性插值的计算开支。

有人可能会问，尽管语义变换在深度特征上很有效率，但是在像素点空间就很困难了。但是，本文目的并不是修改语义的内容，而是用这些语义修改后的图像来训练网络，增广数据集。因为增广后的特征可直接用于训练，就没有必要来显示语义变换的结果。后面，作者将该方法集成进网络的训练过程。

在这里插入图片描述
图3. 深度特征插值和其它现有工作的介绍，它们启发的本文作者。如“修改汽车颜色”或“修改背景”的变换可以通过深度特征的线性转化实现，沿着对应变换的语义方向。

4. 隐式语义数据增广 ISDA

如上所述，深度特征空间的特定方向是非常有意义的语义变换，如“戴眼镜”或“调整视角”。利用该发现，作者提出了 ISDA 方法，通过深度特征来增广训练集。该方法有2个重要组成，即类别条件协方差矩阵的在线估计和鲁棒损失函数的优化。第一个组成目的是找到一个分布，我们可以从中采样出有意义的语义变换方向，进行数据增广，而第二个则让我们不用去生成大量的训练数据，与现有方法相比非常高效率。

4.1 语义方向采样

本文方法的一个挑战就是如何找到合适的语义增广方向。这些方向要对应图像中主要物体的有意义的语义变换，而不会改变图像类别的身份。例如，像戴眼镜或着装这类变换适合去增加人的图像，而其它的如飞行或航海则没有多少意义。此外，图像中的人不应该被变换为马或其它物体。

[9]提出通过人工标注的方式来寻找语义方向。图4(a)展示了该方法。比如将汽车的颜色从蓝色变为红色。首先，他们搜集了一个蓝色汽车图像集合和一个红色汽车的图像集合，然后将它们输入深度网络学习特征。然后，将蓝色汽车的平均特征的向量加到红色汽车的平均特征上。该向量对应着“将汽车颜色从蓝色变为红色”的变换。最后，要想变换一个新的图像，沿着该向量对深度特征做转化，将特征映射回像素空间。该论文证明了这个方法能够执行准确地进行转化。但是人工标注对于语义数据增广是不可行的。对于每个类别的可能变换，我们需要有足够多的标注图像。另外，预先定义好所有可能的语义变换也是很困难的。缺失某种变换都会造成性能的退化。

关于效率，实现语义方向的一个可能的解决方法就是随机采样。但是，深度特征空间非常稀疏化（比如 ResNets 在 CIFAR 上生成了64维的特征。如果每个维度有2个可能值，就一共有 $2^{64}$ 个可能特征。），随机采样会产生许多无意义的语义方向。如图4(b)所示，汽车可能也会加上“变老”或“飞翔”的变换。

为了实现效率和有效性的平衡，作者提出近似人工标注的流程，从一个零值正态分布中随机选择向量，其协方差与待增广样本的类内方差矩阵成正比。该协方差矩阵可的到类内样本的方差，可能就包含丰富的语义信息。直观点，人类别的特征可能会沿着“戴眼镜”的方向变化，训练集中既包含戴眼镜人的图像，也包含不戴眼镜的图像。然而对于人来说，“配备推进器”这个方向的方差应该几乎是0。但是飞机类别的特征就可以沿着“配备推进器”的方向来变化，而“戴眼镜”方向的方差应该为0。作者希望，每个类别的方向应该对应着意义丰富的变换，这些方向通过该类别的协方差矩阵能很好地表示。除了效率，该方法可以使用优于人工标注的语义变换，因为在深度特征空间中，语义方向是连续分布的。

在这里插入图片描述
图4. 深度特征空间中，三种不同的获取增广语义方向的方法。人工标注是最精准的方式。但是，它需要提前搜集每个类别、每种变换的标注图像，这非常费时费力。此外，它肯定会漏掉一些增广变换方法。然而，通过随机选取来找到语义方向是很高效的，但是会产生一大堆无意义的变换。为了实现效率和有效性的平衡，作者提出计算每个类别深度特征的协方差矩阵，从一个零均值正态分布中选择语义方向，利用估计的类别条件协方差矩阵。该协方差矩阵可以获取训练数据中类内特征的分布，因此包含丰富的潜在语义变换信息。

假设我们用权重 $\theta$ 在训练集 $D=\{(x_i,y_i)\}$ 上训练深度网络 $G$ ，其中 $y_i\in \{1,...,C\}$ 是第 $i$ 个样本 $x_i$ 在 $C$ 个类别上的标签。 $A$ 维度的向量 $a_i = [a_{i1},...,a_{iA}]^T = G(x_i,\theta)$ 表示G学到的深度特征 $x_i$ ， $a_{ij}$ 表示 $a_i$ 中第 $j$ 个元素。

为了得到增广 $a_i$ 所需的语义方向，作者构建了一个零均值多元正态分布 $N(0,\sum_{y_i})$ ，其中 $\sum_{y_i}$ 是 $y_i$ 类中所有样本特征估计出的类别条件协方差矩阵。在实现上，通过汇合所有 mini-batches 的数据，以一种在线的方式计算出协方差矩阵。该协方差矩阵的在线估计算法可表示为：

在这里插入图片描述

其中 $\mu_j^{(t)}$ 和 $\sum_j^{(t)}$ 分别是第j类、第t步的特征均值和协方差矩阵。 $\mu_j^{'(t)}$ 和 $\sum_j^{'(t)}$ 是第j类、第t个mini-batch特征的均值和协方差矩阵。 $n_j^{}$ (t)表示第t个mini-batch中，属于第j类的训练样本的总数。

训练过程中，计算每个类别的协方差矩阵 $C$ 。沿着从 $N(0,\lambda \sum_{y_i})$ 中选择的随机方向转化 $a_i$ ，就可得到增广特征 $\tilde a_i$ 。等价地，我们可以有：

$\tilde a_i \sim N(a_i,\lambda \sum_{y_i})$

其中 $\lambda$ 是正的系数，控制语义数据增广的强度。在网络训练初始的几个 epochs，协方差的估计没有太多的信息。为了解决该问题，作者让 $\lambda=(t/T)\times \lambda_0$ ， $t$ 是当前迭代的次数，从而降低早期训练阶段中协方差估计的影响。

4.2 Upper Bound of the Expected Loss

实现语义数据增广的朴素方式是，直接增广每个 $a_i$ 样本 M 次，得到一个增广特征集 ${(a_i^1, y_i), ...,(a_i^M, y_i)\}_{i=1}^N$ ，大小是 MN，其中 $a_i^m$ 是样本 $x_i$ 的第m个增广特征样本。然后最小化交叉熵损失来训练网络：

$L_M(W,b,\theta) = \frac{1}{N}\sum_{i=1}^N \frac{1}{M} \sum_{m=1}^{M} - \log (\frac{e^{w^T_{y_i}\alpha_i^m + b_{y_i}}}{\sum_{j=1}^C e^{\omega_j^T\alpha_i^m+b_j}})$

其中， $W=[w_1, ...,w_C]^T \in \mathbb{R}^{C\times A}$ ， $b=[b_1,...,b_C]^T\in \mathbb{R}^C$ 分别是最终全连接层的权重矩阵和偏置。

很明显，当 M 很大时，该实现非常消耗算力，因为特征集会被放大 M 倍。后面，我们会考虑到 M 是无穷的情况，发现我们可以从损失函数中推导出一个容易计算的上界，从而让实现变得非常高效。

当 $\rightarrow \infin$ 时，我们实际是在考虑所有可能增广特征的 CE 损失期望。 $L_{\infin}$ 是：

$L_{\infin} (W,b,\theta | \sum) = \frac{1}{N} \sum_{i=1}^N E_{\tilde a_i} [-\log (\frac{e^{w^t_{y_i} \tilde \alpha_i + b_{y_i}}}{\sum_{j=1}^C e^{w^T_{j} \tilde \alpha_i + b_{j}}})]$

如果 $L_{\infin}$ 可以高效率地计算出，我们就可以直接最小化它，无需采样增广特征。但是，上述等式很难计算出结果。作者发现，通过下面的命题，我们可以推导出 $L_{\infin}$ 的一个容易计算的上界。

命题1。假设 $\tilde \alpha_i \sim N(\alpha_i, \lambda \sum_{y_i})$ 。那么我们就可以得到 $L_{\infin}$ 的上界，

$L_{\infin} \leq \frac{1}{N} \sum_{i=1}^N -\log(\frac{e^{w^t_{y_i} \alpha_i + b_{y_i}}}{\sum_{j=1}^C e^{w^T_{j} \tilde \alpha_i + b_{j} + \frac{\lambda}{2} v^T_{jy_i}\sum_{y_i}v_{jy_i}}}) \triangleq \overline L_{\infin}$

其中 $v_{jy_i} = \omega_j - \omega_{y_i}$ 。

证明。根据 $L_{\infin}$ 的定义，我们有

在这里插入图片描述

上面，不等式9遵循了 Jensen 不等式 $E[\log X] \leq \log E[X]$ ，算数函数 $\log(\cdot)$ 是凹函数。等式10 利用了 moment-generating 函数：

$E[e^{tX}] = e^{t\mu + \frac{1}{2} \sigma^2 t^2}, X \sim N(\mu, \sigma^2)$

$v^T_{jy_i} \tilde \alpha_i + (b_j-b_{y_i})$ 是一个高斯随机变量，即

$v^T_{jy_i} \tilde \alpha_i + (b_j-b_{y_i}) \sim N(v^T_{jy_i} \alpha_i + (b_j-b_{y_i}), \lambda v^T_{jy_i}\sum_{y_i} v_{jy_i})$ 。

本质上，命题1 为隐式数据增广算法提供了一个替代损失。它没有最小化真实损失函数 $L_{\infin}$ ，而是用一个更加高效的方式来优化其上界 $\overline L_{\infin}$ 。所以，该 ISDA 就可归结为一个新的鲁棒的损失函数，可以被大多数的深度u模型采纳。此外，作者发现当 $\lambda \rightarrow 0$ 时，没有特征被增广， $\overline L_{\infin}$ 就变为了标准的 CE 损失。