对抗的训练来从模拟和无监督图像中学习

最新推荐文章于 2021-09-03 18:49:22 发布

灰巧克力爱松露

最新推荐文章于 2021-09-03 18:49:22 发布

阅读量4.4k

点赞数 4

分类专栏： Deep Learning 文章标签：细化的合成图像训练真实图像测试 SimGAN

本文链接：https://blog.csdn.net/shadow_guo/article/details/55003725

版权

Deep Learning 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

来自Ashish Shrivastava 1 等人的文章“Learning from Simulated and Unsupervised Images through Adversarial Training”。

摘要

无需昂贵的标注，用合成图像更容易训练模型。但因合成图像分布与真实图像分布的差异，用合成图像学习效果不理想。因此提出：

“模拟+无监督”（S+U）学习：保留模拟器给出的标注信息的同时，用无标签的真实数据来提高模拟器（simulator）输出的真实度。
S+U学习方法：对抗网络的输入为合成图像，而非随机向量。改动标准GAN来保留标注，避免合成现象（artifacts）和稳定训练：（i）“自正则”项，（ii）局部的对抗损失，和（iii）用细化图像（refined images）的历史来更新判别器。
泛化至真实图像：定性和用户研究来表明生成图像的逼真。训练模型来估计注视和手部姿态，定量评估生成的图像。

1. 简介

标注大数据集昂贵耗时，但可自动获得合成数据的标注。用合成数据已解决Kinect的手部姿态估计及最近一些其它任务。
而学习合成图像会有问题：合成图像与真实图像的差异—合成数据通常不够真实，使网络仅学到合成图像的细节，却难以泛化至真实图像。
解决方案之一为改善模拟器，而增加真实度计算昂贵，设计渲染器的工作量很大，且顶级渲染器仍可能难以建模真实图像的所有特征。这可能会使模型在合成图像中“不真实”的细节上过拟合。

S+U学习应保留训练机器学习模型的标注信息，如保留图 $1$ 中的注视方向。

这里写图片描述

S+U学习方法（SimGAN）用一细化网络（“refiner network”）细化合成图像，概述见图 $2$ ，合成图像由黑箱模拟器生成，并经细化网络细化。（i）为增加真实度，类似GANs训练对抗网络，用正则损失，使判别网络无法区分细化的生成图像与真实图像。（ii）为保留合成图像的标注，为对抗损失补充自正则损失，来惩罚合成图像与真实图像间的巨大改变。进一步用一全卷积网络操作像素并保留全局结构（而非如全连接编码网络那样去完全改变图像内容）。（iii）GAN框架用竞争的目标来训练 $2$ 个网络，使网络不稳定且易引入合成现象。因此限制判别器的感受野至局部区域（而非整幅图像），使每幅图有多个局部的对抗损失。并用细化图像的历史（而非当前细化网络输出的细化图像）更新判别器来稳定训练。

这里写图片描述

2. 使用SimGAN的S+U学习

S+U学习是为用无标签的真实图像 $y_i\in Y$ 来学习细化合成图像 $x$ 的细化器 $R_\theta(x)$ ， $\theta$ 为细化器的参数。 $\tilde x$ 表示细化图像，有：

x ~ : = R θ (x)

$\tilde x:=R_\theta(x)$
S+U学习要求保留模拟器的标注信息的同时，细化图像

x~ $\tilde x$ 应看起来接近真实图像。
至此，结合

2 $2$ 个损失后最小化来学习

θ $\theta$ ：

L R (θ) = \sum i l r e a l (θ; x ~ i, Y) + λ l r e g (θ; x ~ i, x i) . (1)

$L_R(\theta)=\sum_il_{real}(\theta;\tilde x_i,Y)+\lambda l_{reg}(\theta;\tilde x_i,x_i).\qquad (1)$
其中，

xi $x_i$ 为第

i $i$ 幅合成的训练图像，

x~i $\tilde x_i$ 为第

i $i$ 幅细化图像。第

1 $1$ 部分损失

lreal $l_{real}$ 增加了合成图像的逼真度，而第

2 $2$ 部分损失

lreg $l_{reg}$ 通过最小化合成图像与细化图像间的差异来保留标注信息。

2.1 关于自正则（Self-Regularization）的对抗损失

理想的细化器会使其输出图像难以判别真假。因此，训练对抗判别网络 $D_{\phi}$ 来分类图像的真假，其中 $\phi$ 为判别网络的参数。训练细化网络 $R$ 的对抗损失来“愚弄”网络 $D$ 判断图像真假。使用GAN方法为 $1$ 个双玩家的最小最大游戏，并交替更新细化网络 $R_{\theta}和$ 判别网络 $D_{\phi}$ 。
最小化如下损失来更新判别网络的参数：

L D (ϕ) = - \sum i l o g (D ϕ (x ~ i)) - \sum j l o g (1 - D ϕ (y j)) . (2)

$L_D(\phi)=-\sum_ilog(D_{\phi}(\tilde x_i))-\sum_jlog(1-D_{\phi}(y_j)).\qquad (2)$

希望判别器可判别真实图像不为合成图像： $D_{\phi}(y_i)\downarrow,1-D_{\phi}(y_i)\uparrow,-\sum_jlog(1-D_{\phi}(y_j))\downarrow$ ；
希望判别器可判别细化图像为合成图像： $D_{\phi}(\tilde x_i)\uparrow,-\sum_ilog(D_{\phi}(\tilde x_i))\downarrow$ 。

它等价于二分类问题的交叉熵，其中 $D_{\phi}(.)$ 为输入合成图像的概率，则 $1-D_{\phi}(.)$ 为输入真实图像的概率。 $D_{\phi}$ 用卷积网络，网络的最后一层输出样本为细化图像的概率。训练该判别网络时，每个小块（minibatch）包含随机采样的细化的合成图像 $\tilde x_i's$ 和真实图像 $y_j's$ 。每个 $y_j$ 的交叉损失层的目标标签为 $0$ ，每个 $\tilde x_i$ 的目标标签为 $1$ 。小块的损失的梯度上用随机梯度下降（SGD）步来更新小块的参数。

这里，方程 $(1)$ 中的真实度损失函数 $l_{real}$ 使用训练好的判别器 $D$ ：

l r e a l (θ; x ~ i, Y) = - \sum i l o g (1 - D ϕ (x ~ i)) = - \sum i l o g (1 - D ϕ (R θ (x i)) . (3)

$\begin{align} l_{real}(\theta;\tilde x_i,Y)&=-\sum_i log(1-D_{\phi}(\tilde x_i))\\ &=-\sum_i log(1-D_{\phi}(R_{\theta}(x_i)).\qquad (3) \end{align}$

希望细化器使判别器难以判别细化图像为合成图像： $D_{\phi}(R_{\theta}(x_i))\downarrow,-\sum_i log(1-D_{\phi}(R_{\theta}(x_i))\downarrow$ 。

最小化该损失函数。除生成逼真图像，细化网络应保留模拟器的标注信息。如，

注视估计：学到的变换不应改变注视方向；
手部姿态估计：关节的位置不应改变。

因而使机器学习模型能用有标注信息的细化图像。为此，提出自正则损失来最小化合成图像与细化图像间的图像差异。因此，该应用下方程 $(1)$ 中的全部损失函数为：

L R (θ) = - \sum i l o g (1 - D ϕ (R θ (x i))) + λ | | R θ (x i) - x i | | 1 . (4)

$L_R(\theta)=-\sum_i log(1-D_{\phi}(R_{\theta}(x_i)))+\lambda||R_{\theta}(x_i)-x_i||_1.\qquad (4)$
其中

||.||1 $||.||_1$ 为L

1 $1$ 正则。无跨越（striding）或池化的全卷积神经网络作为

Rθ $R_{\theta}$ 。像素层面上修改合成图像，而非如全连接编码器那样完全改变图像内容，并保留全局结构与标注。
交替最小化

LR(θ) $L_R(\theta)$ 和

LD(ϕ) $L_D(\phi)$ 来学习细化器和判别器的参数：更新

Rθ $R_{\theta}$ 的参数时，保持

ϕ $\phi$ 不变；更新

Dϕ $D_{\phi}$ 的参数时，保持

θ $\theta$ 不变。

2.2 局部的对抗损失

还要求不引入合成现象的同时，细化网络应学到真实图像的特征：训练单个强判别网络时，细化网络往往过分强调特定的图像特征来愚弄当前的判别网络。从细化图像中采样的局部块应与真实图像中的对应块有相似的统计特性。因此，定义一可单独分类所有图像块的判别网络（而非一全局判别网络）。这样限制了感受野的大小（判别网络的容量）；为学习判别网络提供很多样本；更好地训练细化网络（每幅图像多个“真实度损失”）。

这里，设计判别器 $D$ 为一输出 $w\times h$ 维的块概率图，判断输入块是否为合成图像。其中， $w\times h$ 为图像中局部块的数目。训练细化网络时， $w\times h$ 个局部块上求和交叉熵损失，见图 $3$ 。

这里写图片描述

2.3 用细化图像的历史更新判别器

对抗训练另一问题：判别网络仅关注最近时间步上的细化图像。这可能导致：（i）训练发散，（ii）细化网络引入判别网络遗忘的合成现象。
对于判别网络，整个训练中所有时间步上，所有细化网络生成的细化图像都为合成图像。因此，判别器应能将所有这些图像分类为合成图像。基于此，用细化图像的历史更新判别网络来提高训练的稳定性（而非仅用当前时间步上的小块）。修改方法 $1$ ，使其有之前网络生成的细化图像缓冲。方法 $1$ 中，令 $B$ 为缓冲的大小， $b$ 为小块的大小。

这里写图片描述

训练判别网络时每次迭代，从当前细化网络和缓冲中分别采样 $\frac{b}{2}$ 张图像来更新参数 $\phi$ 。固定缓冲大小 $B$ 。每次迭代后，从缓冲中随机采样 $\frac{b}{2}$ 张图像作为新的生成的细化图像，见图 $4$ 。

3. 实验

MPIIGaze数据集和NYU手部姿态的深度图像数据集上评估方法。所有实验用全卷积细化网络（带残差网络模块），见图 $6$ 。

3.1 注视（Gaze）估计

尤其当遇到低质量图像时（笔记本或移动手机的相机），从眼部图像中估计注视方向面临挑战。甚至人类用注视方向向量来标注眼部图像也是有挑战的。为生成大量的标注数据，最近的研究者用大量的合成数据来训练模型。这里，该任务上用SimGAN生成的细化的合成图像有显著的改善。

注视估计数据集包含 $1.2M$ 张用眼部注视合成器UnityEyes合成的图像和 $214K$ 张MPIIGaze数据集上的真实图像，样本见图 $5$ 。

3.1.1 定性结果

SimGAN成功获取真实图像中皮肤纹理，传感器噪声和虹膜区域的外观。注意到该方法提高真实度的同时，保留了标注信息（注视方向）。

3.1.2 视觉图灵测试

为定量评估细化图像的视觉质量，设计简单的用户研究，询问用户来分类细化的合成图像与真实图像。
展示给每个用户随机选择的 $50$ 张真实图像和乱序的 $50$ 张细化图像，每次给用户连续展示 $20$ 张图像。总体分析， $10$ 个用户可从 $1000$ 次（ $(50+50)\times 10$ ）尝试中正确选择 $517$ 次（ $p=0.148$ ），比碰运气略好。表 $1$ 为混淆矩阵。
相反，展示给每个用户 $10$ 张真实图像和 $10$ 张合成图像， $200$ 次（ $(10+10)\times 10$ ）尝试中正确选择 $162$ 次（ $p\le 10^{-8}$ ），比碰运气好得多。

$H_0:\mu \le 0.5; H_1: \mu > 0.5$ 。p值计算结果2： $0.148344675387; 9.92185044371e-20$
print stats.binom_test(517, 1000, 0.5, 'greater') print stats.binom_test(162, 200, 0.5, 'greater')

3.1.3 定量结果

训练一卷积网络来预测眼部的注视方向（用 $3$ 维向量 $[x,y,z]$ 编码和 $L2$ 损失）。UnityEyes上训练，MPIIGaze上测试。图 $7$ 和表 $2$ 比较了卷积网络用合成数据和用细化的合成数据（SimGAN输出）训练出的结果。SimGAN输出的结果有 $22.3$ %的提高。

表 $3$ 与最新成果比较。细化图像上训练卷积网络比MPIIGaze数据集上最新结果提高 $21$ %。

3.1.4 应用细节

细化网络， $R_{\theta}$ ，为一残差网络。每个残差网络模块包含 $2$ 个卷积层，每个卷积层包含 $64$ 个特征图，见图 $6$ 。
$3\times 3$ 大小的滤波器卷积 $55\times35$ 大小的输入图像，输出 $64$ 个特征图。输出经过 $4$ 个残差模块。最后 $1$ 个残差模块的输出经过 $1$ 个 $1\times 1$ 大小的卷积层来输出 $1$ 个对应细化的合成图像的特征图。

判别网络， $D_{\phi}$ ，包含 $5$ 个卷积层和 $1$ 个最大池化层，如下：
（1） $Conv3\times 3,stride=2,feature\ maps=96$
（2） $Conv3\times 3,stride=2,feature\ maps=64$
（3） $MaxPool3\times 3,stride=1$
（4） $Conv3\times 3,stride=1,feature\ maps=32$
（5） $Conv1\times 1,stride=1,feature\ maps=32$
（6） $Conv1\times 1,stride=1,feature\ maps=2$
（7） $Softmax$

对抗网络为全卷积网络，设计该网络使 $R_{\theta}$ 与 $D_{\phi}$ 中最后 $1$ 层神经元的感受野相似。先训练仅有自正则损失的 $R_{\theta}$ 网络 $1000$ 步，训练 $D_{\phi}200$ 步；然后， $D_{\phi}$ 每更新 $1$ 次， $R_{\theta}$ 更新 $2$ 次，即方法 $1$ 中， $K_d$ 设为 $1$ 且 $K_g$ 设为 $50$ 。

注：先单独训练细化网络和判别网络，再同时训练。 $K_g$ 应改为 $2$ ，但也有可能为 $50$ ~

眼部注视估计网络的输入为 $35\times 55$ 大小的灰度图像，经过 $5$ 个卷积层和 $3$ 个全连接层，最后 $1$ 全连接层编码 $3$ 维注视向量：
（1） $Conv3\times 3,feature\ maps=32$
（2） $Conv3\times 3,feature\ maps=32$
（3） $Conv3\times 3,feature\ maps=64$
（4） $MaxPool3\times 3,stride=2$
（5） $Conv3\times 3,feature\ maps=80$
（6） $Conv3\times 3,feature\ maps=192$
（7） $MaxPool2\times 2,stride=2$
（8） $FC9600$
（9） $FC1000$
（10） $FC3$
（11） $Euclidean\ loss$

用不变的学习率 $0.001$ 和 $512$ 个块来训练所有的网络，直到验证误差收敛。

3.2 从深度图像估计手部姿态

NYU手部姿态数据集包含 $72757$ 个训练帧和从 $3$ 个Kinect相机（ $1$ 个前视， $2$ 个侧视）捕获的 $8251$ 个测试帧。手部姿态信息用于创建合成的深度图像，用其标注每个深度帧。图 $10$ 显示其中一帧。预处理时，用合成图像从真实图像中裁剪手部像素区域，传入卷积网络前缩放至 $224\times 224$ 大小。背景深度值设为 $0$ ，前景深度值设为原深度值减 $2000$ （假设相机距背景 $2000$ mm）。

3.2.1 定性结果

图 $11$ 为NYU手部姿态数据集上SimGAN的示例输出。显然，真实深度图像中的噪声主要来自边缘处深度的不连续。SimGAN无需真实图像的任何标注信息，就能学到建模该类噪声，从而使这些合成图像更加逼真。

3.2.2 定量结果

类似堆叠的沙漏网络（Stacked Hourglass Net），NYU手部姿态训练集的真实图像，合成图像和细化的合成图像上训练 $1$ 个全卷积手部姿态估计CNN；NYU手部姿态测试集的所有真实图像上评估网络。
图 $12$ 和表 $4$ 为NYU手部姿态数据集上的定量结果。

细化的合成数据（SimGAN输出）上的训练不要求真实图像的任何标注。相比有监督的真实图像上训练出的模型，效果超出 $8.8$ %；合成图像上训练效果也更好；训练样本增加后有很大提高。

3.2.3 应用细节

细化网络的结构与眼部注视估计的细化网络的结构相同，除了输入 $224\times224$ 大小的图像，滤波器大小为 $7\times 7$ ，用 $10$ 个残差网络。

判别网络， $D_{\phi}$ ，为：
（1） $Conv7\times 7,stride=4,feature\ maps=96$
（2） $Conv5\times 5,stride=2,feature\ maps=64$
（3） $MaxPool3\times 3,stride=2$
（4） $Conv3\times 3,stride=2,feature\ maps=32$
（5） $Conv1\times 1,stride=1,feature\ maps=32$
（6） $Conv1\times 1,stride=1,feature\ maps=2$
（7） $Softmax$

先训练仅有自正则损失的 $R_{\theta}$ 网络 $500$ 步，训练 $D_{\phi}200$ 步；然后， $D_{\phi}$ 每更新 $1$ 次， $R_{\theta}$ 更新 $2$ 次，即方法 $1$ 中， $K_d$ 设为 $1$ 且 $K_g$ 设为 $2$ 。
手动姿态估计网络用 $2$ 个沙漏模块，输出 $64\times 64$ 大小的热度图。训练时，随机旋转 $[-20,20]$ 和裁剪来增广数据。训练所有的网络，直到验证误差收敛。

3.3 分析对抗训练的改动

比较训练时局部和全局的对抗损失。局部的对抗损失移除合成现象，使生成的图像更真实，见图 $8$ 。

使用细化图像的历史，与注视估计中标准的对抗训练比较，见图 $9$ 。细化图像的缓冲阻碍标准训练中严重的合成现象，如眼角周围。

4. 小结

本文主要意图：合成图像可自动被标注，而大量真实图像的标注代价高；模拟器生成合成图像，经细化网络输出细化的合成图像；细化的合成图像逼近真实图像，并保留了标注信息；所用的真实图像测试集上，相比用原真实图像训练出的模型，用细化的合成图像训练出的模型效果更好。

全文未经校正，有问题欢迎指出~ (๑•̀ㅂ•́)و✧

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

灰巧克力爱松露

关注关注

4
点赞

踩

9

收藏

觉得还不错? 一键收藏

2
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

元学习 (Meta Learning) 原理与代码实例讲解

程序员光剑

07-25 409

元学习 (Meta Learning) 原理与代码实例讲解关键词：元学习快速适应学习策略模型聚合实时学习 1. 背景介绍

图像分类机器学习的入门课程：机器学习、监督学习、无监督学习、集成学习等概念和基本算法原理

最新发布

程序员光剑

09-12 2986

作者：禅与计算机程序设计艺术 1.简介本文以图像分类为例，进行了机器学习的入门级课程。介绍了机器学习、监督学习、无监督学习、集成学习等概念和基本算法原理。重点介绍了常用的神经网络模型——卷积神经网络（CNN），并通过一个例子实现了图像分类任务。为了使读者更容易理解文章，下面对其中的关键

2 条评论您还未登录，请先登录后发表或查看评论

对抗学习之Learning from Simulated and Unsupervised Images through Adversarial Training

迷途中一个小书童

11-09 2928

今天讲一篇cvpr2017的best paper，不是大家熟知的densely connect，是苹果的Learning from Simulated and Unsupervised Images through Adversarial Training，用GAN来做对抗学习的。 Motivation：搞数据一直是深度学习的老大难问题，也是工业界优势于学术界的地方，需要花钱标

对抗样本与对抗训练

热门推荐

cdpac的博客

12-07 3万+

本文将会介绍对抗样本与对抗训练的相关知识（请将此对抗训练与Ian Goodfellow的生成对抗网络区别开来）。综合Ian Goodfelow在Burkeley CS 294-131的deeplearning topic上面的讲义，我将从以下几个方面介绍：什么是对抗样本？它们是怎么出现的？它们是怎么危害到机器学习系统？有什么办法防范？怎样使用对抗样本训练机器学习？

【paper 2】Learning from Simulated and Unsupervised Images through Adversarial Training

117瓶果粒橙

05-22 294

GAN对抗学习单词 refiner 修正器 tractable 容易处理的 annotations 注释 plethora 过多 penalize 惩罚 holistically 整体论地 divergence 分歧 aggregate 聚集 self-regularization 正则化参考博文论文笔记（三）【Learning from Simulat...

[Paper note] Learning from Simulated and Unsupervised Images through Adversarial Training

chn13的博客

12-30 887

paper note for SimGAN

每日论文 Learning from Simulated and Unsupervised Images through Adversarial Training

u010032054的博客

04-05 737

苹果首发用没有标签的真实人眼数据通过训练一个模拟器提炼网络（生成器）去提炼生成的人眼图片，增加生成人眼图片的真实性。用一个对抗损失和一个自正则化损失函数去优化训练过程。这个优化方程优化生成器R，同时增加了约束项，将提炼的人眼和生成的人眼就行L1范式最小化。这个优化方法优化辨别器，除了用生成的人眼数据使得值最小，还用到真实的人眼数据优化使得值最大。为了增加真实效果，还进行

模拟无监督张量流：“通过对抗训练从模拟和无监督图像中学习”的TensorFlow实现

02-05

TensorFlow中的模拟+无监督（S + U）学习中TensorFlow实现。要求 Python 2.7 0.12.1 用法生成综合数据集：运行，将resolution更改为640x480并将Camera parameters更改为[0, 0, 20, 40] [0, 0, 20, 40] 。将...

SimGAN：苹果通过对抗训练从模拟和无监督图像中学习的实施

02-06

在苹果的论文中，他们使用生成了约120万张合成图像。我在Mac上，因此我只使用了易于使用的。这很小（仅约11,000张图像），所以如果有人可以使用生成更大的数据集并在s3上共享它会更好。苹果纸上使用的真实图像...

无监督图像分解算法：通过无监督学习图像分解为对象原型来识别对象类别和实例参数

8640无监督分层图像分解...CNRS，PSLResearchUni versity，巴黎，法国imagine.enpc.fr/~ monniert/DTI-Sprites摘要我们提出了一个无监督的学习框架，用于将图像分解为自动发现的对象模型层。最近的方法，模型图像层与自

无监督域自适应中的鲁棒性对抗训练

8568无监督域自适应的对抗鲁棒性Muhammad Awais1，2*，Fengwei Zhou1，Hang Xu1，LanqingHong1，Ping... huawei.com摘要广泛的无监督域自适应（UDA）研究已经在实践中通过利用深度模型学习跨标记源域和未标记目标域的可

dcgan_mnist（对抗学习）

03-14

提供详细的对抗学习的python程序，并提供具体实例验证，

Learning from Simulated and Unsupervised Images through Adversarial Training：解析simGAN

zuber123的博客

04-17 1054

通过对抗式训练从模拟无监督图像中学习该篇论文为苹果首篇AI论文，且为2017年cvpr的最佳论文。该论文主要通过训练一个对抗式网络，将合成图像中添加真实性的细节，最终得到一个有标签的，类似与真实图像的合成图像。本文将从以下几个方面介绍该论文。传统GAN网络结构训练过程 simGAN网络结构论文创新点未来研究方向总结 0.传统GAN网络对于GAN网络来说，最...

对抗训练

Fan9_的博客

05-17 9363

文章目录1、定义2、对抗训练：从CV到NLP2.1 CV中的数据格式2.2 NLP中数据格式３、对抗样本与数据增强样本４如何确定微小扰动４.1 Fast Gradient Sign Method(FGSM)４.2 Fast Gradient Method(FGM)4.3 Projected Gradient Descent(PGD)5 实验结果6 实现6.1 pytorch实现[2]6.2 keras实现[3] 1、定义对抗样本：对输入增加微小扰动得到的样本。旨在增加模型损失。对抗训练：训练模型去区分

论文笔记（三）【Learning from Simulated and Unsupervised Images through Adversarial Training】

daydayjump的博客

08-24 2570

论文地址：论文一、论文记录 1.摘要因为随着训练技巧的提升，使用合成（产生）的图片进行训练，避免了人工注释的麻烦。但是存在着一个问题，就是合成图片与真实图片的分布存在着一定的差距。为了解决这一问题，本文提出了Simulated + Unsupervised（仿真+无监督）learning的方法。具体来说是通过没有标签的真实图片来提高仿真器生成图片的真实性，同时还保持原有合成图片的注...

对抗性训练（Adversarial training）

rocsoft

09-03 4122

对抗性训练最大最小化公式： min⁡θE(x,y)∼D[max⁡Δx∈ΩL(x+Δx,y;θ)] \min_{\theta}\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[\max_{\Delta x\in\Omega}L(x+\Delta x, y;\theta)\right] θminE(x,y)∼D[Δx∈ΩmaxL(x+Δx,y;θ)] D\mathcal{D}D表示训练数据，xxx表示输入，yyy表示标签，θ\thetaθ表示模型参数，L(⋅)L(·)L(⋅)表

对抗学习

weixin_39940694的博客

11-09 225

对抗学习主体内容参考再embending上加入一个扰动，满足扰动最大但是求解的loss还是最小。其中扰动最大在函数外部做好了，认为沿着梯度上升的方向是扰动最大方向。因为梯度下降是最好的，那上升就是破坏最严重的。先去改变了embending的值，方法是embending+梯度上升。最后更新的时候恢复embending的值data。让正常的参数的梯度加上扰动的参数梯度。等效于加入扰动。对pytorch训练模型三部必须操作理解更深刻。参考， loss.backward()仅仅是求解梯度。

无监督目标检测：Web图像中的知识自动迁移

通过生成伪强标签，这种方法可以在没有实际标注的情况下模拟监督学习，使得模型能够在目标域中学习到有用的信息。文章还提到了一些相关的先进工作，如更快的R-CNN、SSD和FPN，这些都是深度学习在目标检测领域的...