Data-Free Adversarial Distillation

最新推荐文章于 2023-06-18 13:13:58 发布

weixin_37958272

最新推荐文章于 2023-06-18 13:13:58 发布

阅读量1k

点赞数 1

本文链接：https://blog.csdn.net/weixin_37958272/article/details/116134074

版权

Data-Free Adversarial Distillation

最近，Dosovitskiy和Brox[11]通过将自动编码方式与GAN的对抗性训练相结合，训练了能够从高度压缩的特征表示生成图像的网络。我们利用这些图像发生器网络作为先验产生合成的首选图像。这些生成器网络接近但不是真实的生成模型，因为它们在训练时没有像变分自动编码器[14]或GANs[17]那样对隐藏分布施加任何先验，也没有像去噪自动编码器[18]那样添加噪声。因此，在数据空间上既没有自然采样过程，也没有隐式密度函数。

我们引入模型差异来量化衡量学生和教师模型之间的差异，并构建一个可优化的上界。在我们的工作中，学生和教师共同扮演鉴别器的角色，以减少这种差异，当生成器对抗性地产生一些 "硬样本 "来扩大这种差异。广泛的实验表明，所提出的无数据方法产生了与现有数据驱动方法相当的性能**。更引人注目的是，我们的方法可以直接扩展到语义分割，这比分类更复杂，我们的方法取得了最先进的结果。该代码将被发布。**

无数据蒸馏目前是一个新的研究领域，由于缺乏真实数据，传统的生成技术，如GANS[11]和VAE[19]不能直接应用。Nayak等人[27]和Chen等人[6]对这个问题做了一些试验性研究。在Nayak的工作[27]中，一些“Data Impressions”是从教师模型构建的。此外，在陈的工作[6]中，他们还提出生成一些ont-hot样本，可以高度激活教师模型的神经元。这些探索性研究在分类任务上取得了令人印象深刻的成果，但仍存在一些局限性。例如，他们的生成约束是基于假设的经验设计的，即一个适当的样本通常对教师模型有高度的信心。实际上，该模型将样本从数据空间映射到一个非常小的输出空间，大量的信息被丢失。在这样一个有限的空间上，很难构建具有固定标准的样本。此外，这些现有的无数据方法[6, 27]只考虑了固定的教师模型，忽略了学生的信息。这意味着生成的样本不能根据学生的模型进行定制。

为了避免经验设计的约束条件的片面性，我们提出了一个无数据的对抗性提炼框架，以适应性地定制学生模型和教师模型的训练样本。在我们的工作中，引入了一个模型差异来证明模型之间的功能差异。我们为差异构建了一个可优化的上界，这样它就可以减少对学生模型的训练。训练学生模型。我们提出的框架的贡献框架的贡献可以归纳为三点。

我们提出了一个用于无数据知识提炼的对抗性训练框架。据我们所知，这是第一个可以应用于语义分割的方法。

我们引入了一种新的方法，在没有任何真实数据的情况下定量测量模型之间的差异。

广泛的实验表明，所提出的方法不仅在表现上明显优于无数据的方法，而且还产生了与一些数据驱动的方法相当的结果。

3. Method

利用预先训练好的教师模型T(x, θt)的知识，我们的目标是制作一个更轻量级的学生模型S(x, θs)，而不需要获得任何真实世界的数据。为了达到这个目的，我们通过最小化模型差异D(T , S)，用参数化的S来近似模型T，D表示教师T和学生S之间的差异。

在这里插入图片描述

在数据驱动的提炼中，我们设计一个损失函数，例如平均平方误差，并用真实数据对其进行优化。这个过程中的损失函数可以被看作是对模型差异的具体测量。然而，当原始训练数据不可用时，测量就变得很困难了。为了解决这个问题，我们引入了我们的无数据对抗性蒸馏（DFAD）框架来近似估计差异，这样就可以对其进行优化以实现无数据蒸馏。