Improved Techniques for Training GANs 我们提出了应用于生成对抗网络(GAN)框架的各种新的架构特征和训练程序。我们重点关注 GAN 的两个应用:半监督学习和生成人类视觉上真实的图像。与大多数生成模型的工作不同,我们的主要目标不是训练一个为测试数据分配高可能性的模型,也不要求模型能够在不使用任何标签的情况下很好地学习。使用我们的新技术,我们在 MNIST、CIFAR-10 和 SVHN 上的半监督分类中取得了最先进的结果。
How to Train Neural Networks for Flare Removal 当相机指向强光源时,生成的照片可能包含镜头眩光伪影。耀斑以多种形式出现(光晕、条纹、渗色、雾霾等),这种外观的多样性使得去除耀斑变得具有挑战性。现有的分析解决方案对伪影的几何形状或亮度做出了强有力的假设,因此仅适用于一小部分耀斑。机器学习技术已在消除其他类型的伪像(例如反射)方面取得了成功,但由于缺乏训练数据,尚未广泛应用于耀斑消除。为了解决这个问题,我们根据经验或使用波动光学对耀斑的光学原因进行明确建模,并生成耀斑损坏和干净图像的半合成对。这使我们能够首次训练神经网络来消除镜头眩光。
A Style-Based Generator Architecture for Generative Adversarial Networks (第 3.1 节)。我们使用两种不同的损失函数来评估我们的方法:对于 CELEBA-HQ,我们依靠 WGAN-GP [24],而 FFHQ 使用 WGAN-GP 进行配置 A,使用 R1 正则化 [44,51,14] 的非饱和损失 [22] 配置 B–F。我们发现这些选择可以提供最佳结果。我们的贡献不会修改损失函数。我们观察到,基于样式的生成器 (E) 比传统生成器 (B) 显着提高了 FID,几乎提高了 20%,这证实了并行工作中进行的大规模 ImageNet 测量 [6, 5]。
Conditional Generative Adversarial Nets 生成对抗网络 [8] 最近被引入作为训练生成模型的一种新颖方法。在这项工作中,我们介绍了生成对抗网络的条件版本,它可以通过简单地输入我们希望以生成器和判别器为条件的数据 y 来构建。我们证明该模型可以生成以类别标签为条件的 MNIST 数字。我们还说明了如何使用该模型来学习多模态模型,并提供了图像标记应用的初步示例,其中我们演示了该方法如何生成不属于训练标签的描述性标签。
Wasserstein Generative Adversarial Networks Abstract我们引入了一种名为 WGAN 的新算法,它是传统 GAN 训练的替代方案。 在这个新模型中,我们表明我们可以提高学习的稳定性,摆脱模式崩溃等问题,并提供对调试和超参数搜索有用的有意义的学习曲线。 此外,我们表明相应的优化问题是合理的,并提供了大量的理论工作,强调了分布之间不同距离的深层联系。1. Introduction本文关注的问题是无监督学习的问题。 主要是学习概率分布意味着什么? 对此的经典答案是学习概率密度。 这通常是通过定义一个参数密度族 (Pθ)θ∈Rd 并找到使我们
LARGE SCALE GAN TRAINING FORHIGH FIDELITY NATURAL IMAGE SYNTHESIS 尽管最近在生成图像建模方面取得了进展,但成功地从复杂的数据集(如ImageNet)生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们在迄今为止尝试的最大规模上训练生成对抗网络,并研究这种规模特有的不稳定性。我们发现,将正交正则化应用于生成器使其适用于简单的“截断技巧”,通过减少生成器输入的方差,可以对样本保真度和多样性之间的权衡进行精细控制。我们的修改导致模型设置了新的状态,在类条件图像合成的艺术。
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 图像到图像转换是一类视觉和图形问题,其目标是使用对齐图像对的训练集来学习输入图像和输出图像之间的映射。然而,对于许多任务,配对训练数据将不可用。我们提出了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。我们的目标是学习映射 G : X → Y,使得使用对抗性损失时 G(X) 中的图像分布与分布 Y 无法区分。由于这种映射高度受限,我们将其与逆映射 F : Y → X 结合起来,并引入循环一致性损失来强制 F(G(X)) ≈ X(反之亦然)。
Image-to-Image Translation with Conditional Adversarial Networks 我们研究条件对抗网络作为图像到图像翻译问题的通用解决方案。这些网络不仅学习从输入图像到输出图像的映射,还学习损失函数来训练这种映射。这使得可以将相同的通用方法应用于传统上需要非常不同的损失公式的问题。我们证明,这种方法在从标签图合成照片、从边缘图重建对象以及对图像着色等任务方面非常有效。事实上,自从与本文相关的 pix2pix 软件发布以来,大量互联网用户(其中许多是艺术家)已经发布了他们自己对我们系统的实验,进一步证明了其广泛的适用性和易于采用,而无需进行参数调整。
Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks 近年来,卷积网络(CNN)的监督学习在计算机视觉应用中得到了广泛采用。相比之下,CNN 的无监督学习受到的关注较少。在这项工作中,我们希望帮助缩小 CNN 在监督学习和无监督学习方面的成功之间的差距。我们引入了一类称为深度卷积生成对抗网络(DCGAN)的 CNN,它具有一定的架构限制,并证明它们是无监督学习的有力候选者。通过对各种图像数据集的训练,我们展示了令人信服的证据,证明我们的深度卷积对抗对在生成器和鉴别器中学习了从对象部分到场景的表示层次结构。
Generative Adversarial Nets 我们提出了一个通过对抗过程估计生成模型的新框架,其中我们同时训练两个模型:生成模型 G 捕获数据分布,判别模型 D 估计样本来自训练数据的概率,而不是 G 的训练过程是最大化 D 犯错误的概率。该框架对应于极小极大两人游戏。在任意函数 G 和 D 的空间中,存在唯一解,G 恢复训练数据分布,D 处处等于 1/2。在 G 和 D 由多层感知器定义的情况下,整个系统可以通过反向传播进行训练。在训练或生成样本期间不需要任何马尔可夫链或展开的近似推理网络。实验通过对生成的样本进行定性和定量评估来证明该框架的潜力。
ShuffleNet V2: Practical Guidelines for EfficientCNN Architecture Design 目前,神经网络架构设计主要以计算复杂度的间接指标(即 FLOP)为指导。然而,直接指标(例如速度)还取决于其他因素,例如内存访问成本和平台特性。因此,这项工作建议评估目标平台上的直接指标,而不仅仅是考虑失败次数。基于一系列受控实验,这项工作得出了一些有效网络设计的实用指南。因此,提出了一种新的架构,称为 ShuffleNet V2。全面的消融实验验证了我们的模型在速度和准确性权衡方面是最先进的。
ShuffleNet: An Extremely Efficient Convolutional Neural Network for MobileDevices 我们介绍了一种极具计算效率的CNN架构,名为ShuffleNet,它是专门为计算能力非常有限(例如,10-150 MFLOPs)的移动设备设计的。新架构采用了点群卷积和通道shuffle两种新的运算,在保持精度的同时大大降低了计算成本。在ImageNet分类和MS COCO目标检测上的实验表明,在40 MFLOPs的计算预算下,shufflenet在ImageNet分类任务上的top-1误差比最近的MobileNet[12]低7.8%,优于其他结构。
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 我们提出了一类名为 MobileNets 的高效模型,用于移动和嵌入式视觉应用。MobileNet 基于流线型架构,使用深度可分离卷积来构建轻量级深度神经网络。我们引入了两个简单的全局超参数,可以有效地在延迟和准确性之间进行权衡。这些超参数允许模型构建者根据问题的约束为其应用程序选择合适大小的模型。我们对资源和准确性权衡进行了广泛的实验,并且与其他流行的 ImageNet 分类模型相比表现出了强大的性能。
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 训练深度神经网络很复杂,因为在训练过程中,随着前一层参数的变化,每层输入的分布也会发生变化。。批量归一化应用于最先进的图像分类模型,以减少 14 倍的训练步骤实现相同的精度,并大幅优于原始模型。使用批量归一化网络集合,我们改进了 ImageNet 分类的最佳已发表结果:达到 4.82% 的 top-5 测试误差,超过了人类评分者的准确性。
MobileNetV2: Inverted Residuals and Linear Bottlenecks 在本文中,我们描述了一种新的移动架构 MobileNetV2,它提高了移动模型在多个任务和基准测试以及各种不同模型大小上的最先进性能。我们还描述了在我们称为 SSDLite 的新颖框架中将这些移动模型应用于对象检测的有效方法。此外,我们还演示了如何通过 DeepLabv3 的简化形式(我们称之为 Mobile DeepLabv3)构建移动语义分割模型。基于反向残差结构,其中快捷连接位于薄瓶颈层之间。中间扩展层使用轻量级深度卷积来过滤作为非线性源的特征。
Searching for MobileNetV3 我们展示了基于互补搜索技术和新颖架构设计相结合的下一代 MobileNet。MobileNetV3 通过结合硬件感知网络架构搜索 (NAS) 和 NetAdapt 算法来针对手机 CPU 进行调整,然后通过新颖的架构进步进行改进。本文开始探索自动搜索算法和网络设计如何协同工作,以利用互补的方法来提高整体技术水平。通过这个过程,我们创建了两个新的 MobileNet 模型来发布:MobileNetV3-Large 和 MobileNetV3-Small,分别针对高资源和低资源用例。
Deep Residual Learning for Image Recognition 更深层次的神经网络更难训练。我们提出了一个残差学习框架,以简化比以前使用的网络更深的网络训练。我们明确地将层重新表示为参考层输入的学习残差函数,而不是学习未引用的函数。我们提供了全面的经验证据,表明这些残差网络更容易优化,并且可以通过显着增加的深度来获得准确性。在 ImageNet 数据集上,我们评估深度高达 152 层的残差网络,比 VGG 网络 [41] 深 8 倍,但复杂度仍然较低。这些残差网络的集合在 ImageNet 测试集上实现了 3.57% 的误差。
Non-local Neural Networks 卷积和循环运算都是一次处理一个局部邻域的构建块。在本文中,我们将非局部操作作为用于捕获远程依赖关系的通用构建块系列。受计算机视觉中经典非局部均值方法 [4] 的启发,我们的非局部操作将某个位置的响应计算为所有位置特征的加权和。该构建块可以插入许多计算机视觉架构中。在视频分类任务中,即使没有任何附加功能,我们的非局部模型也可以在 Kinetics 和 Charades 数据集上竞争或超越当前的竞赛获胜者。在静态图像识别中,我们的非局部模型改进了 COCO 任务套件的对象检测/分割和姿势估计。代码将可用。
CBAM: Convolutional Block Attention Module 我们提出了卷积块注意力模块(CBAM),这是一种用于前馈卷积神经网络的简单而有效的注意力模块。给定中间特征图,我们的模块沿着两个独立的维度(通道和空间)顺序推断注意力图,然后将注意力图乘以输入特征图以进行自适应特征细化。由于 CBAM 是一个轻量级通用模块,因此它可以无缝集成到任何 CNN 架构中,且开销可以忽略不计,并且可以与基础 CNN 一起进行端到端训练。我们通过在 ImageNet-1K、MS COCO 检测和 VOC 2007 检测数据集上进行大量实验来验证我们的 CBAM。
Squeeze-and-Excitation Networks 卷积神经网络建立在卷积运算的基础上,通过在局部接受域内融合空间信息和通道信息来提取信息特征。为了提高网络的表示能力,最近的几种方法已经显示出增强空间编码的好处。在这项工作中,我们专注于通道关系,并提出了一种新的架构单元,我们称之为“挤压-激励”(SE)块,该单元通过明确建模通道之间的相互依赖性,自适应地重新校准通道智能特征响应。我们证明,通过将这些块堆叠在一起,我们可以构建SENet架构,在具有挑战性的数据集上泛化得非常好。