主要内容
本文提出了可以对图片物体进行语义改变从而在几乎不改变物体形状、视角等信息的情况下,进行不同类别的物体替换。本文中的Mask-Contrasting GAN应用了一个conditional generator 、多个针对单个类别物体判断的判别器以及一个全局判别器(用于判断修改物体和背景是否和谐),使用contrasting objective、略作修改的标准GAN的objective以及cycle objective三者结合,可以得到比state of the art更好的替换效果(原文实验中在MSCOCO等多个数据集上使用多种衡量方法来衡量效果)。
具体实现
由于先前的image object manipulation工作都是针对物体的低级特征进行转换,例如颜色、纹理等;又或者有的工作对转换物体的形状和结构有比较高的限制。因此本文希望在利用图像中的语义信息,在不改变原物体形状、视角等信息的情况下,强制要求物体在语义上接近目标类。总体的效果图如下:
本文中的GAN模型和之前的模型相比,主要区别在loss函数的使用上。为了能找到描绘不同物体的语义信息特征,本模型加入了contrasting objective,具体设计见下文。增加这个loss项的有点有两个:1.可以估计每一类物体的特征中心,统计学层面上学习每个物体的语义信息特点。2.在语义manipulation和特征保留上做了平衡。另外,除去local discriminator控制语义信息,还有一个global discriminator控制修改部分和背景之间的连续性。
Contrasting GAN的objective设计
semantic manipulation的主要任务是学习一个in