ManiGAN: Text-Guided Image Manipulation(论文翻译)

该论文提出了一种名为ManiGAN的生成对抗网络,用于根据自然语言描述对图像进行语义编辑。ManiGAN包含文本图像仿射组合模块(ACM)和细节校正模块(DCM),前者选择并关联与文本相关的图像区域,后者修正属性并完成缺失内容。实验表明,ManiGAN在生成新属性和保留文本无关内容方面优于现有方法。
摘要由CSDN通过智能技术生成

摘要:
我们的论文的目的是在语义上编辑图像的一部分,以匹配描述所需的给定文本(例如,纹理、颜色、背景)同时保留与文本无关的其它内容。为此,我们提出了一种新的生成对抗网络(ManiGAN),它包含两个关键的部分:文本图像仿射组合模块(ACM)和细节校正模块(DCM)。ACM选择与给定文本相关的图像区域,然后将具有相应语义单词的区域与有效操作相关联。同时,它也编码原始图像特征,以帮助文本无关内容的重建。DCM纠正了不匹配的属性,并重建了合成图像的缺失内容。最后,我们提出了一个新的度量来评估图像重构结果,主要是在新属性的生成和文本无关内容的重建方面。在CUB和COCO数据集上进行的广泛实验,证明了所提出方法的优越性。

1、 介绍
图像重构旨在于修改给定图像的某些方面,从低级的颜色或纹理到高级语义,以满足用户的偏好。这在视频游戏、图像编辑和计算机辅助设计中具有很大的应用潜力。最近,随着深度学习和深度生成模型的发展,自动图像重构已经取得了显著的进展,包括图像染色、图像挖掘、风格迁移以及域转换或属性变换。

以上所有的工作主要关注特定的问题,很少有研究专注使用自然语言描述来进行更加一般和用户友好的图像重构。更确切的说,任务旨在根据用户提供的给定文本信息进行语义图像部分编辑,同时保留文本中为描述的其它部分。然而,目前最好的文本指导图像重构方法仅产生低质量的图像,而很难令人满意,(参见图1:第1行),甚至无法重构复杂场景。(参见图1:第2行)

为了实现由文本描述的有效图像重构,关键是利用文本和图像的横向信息,生成匹配给定文本的新属性以及保留原始图像中的与文本无关内容。为了融合文本与图像信息,现有方法通常选择沿信道方向直接连接图像和全局句子特征。尽管如此,上述启发式思想可能会遭受一些潜在的问题。首先,该模型不能精确地将细粒度单词与需要修改的相应视觉属性相关联,从而导致不准确和粗略修改。例如,如图1的第1行所示,两种模型不能产生详细的视觉属性,如黑眼圈和黑啄。其次,该模型不能有效的识别文本无关内容,因此不能重建它们,从而导致图像中的文本无关部分不希望被修改。例如,在图1中,除了修改所需属性外,两个模型还改变了鸟的纹理(第一行)和场景的结构(第二行)。

为了解决上述问题,我们提出了一种新的生成对抗网络,用于解决文本引导图像重构问题(ManiGAN)。它可以生成匹配给定文本的高质量新属性,同时有效地重建与文本无关的原始图像内容。核心就是文本图像仿射组合模块(ACM),其中文本和图像特征协作以选择需要修改的文本相关区域,然后将这些区域与相应的语义单词相关联,以生成与给定的语义对齐的新视觉属性。同时,它还编码原始图像表示,用于重建文本无关内容。此外,为了进一步增强结果,我们引入了一个细节校正模块(DCM),它可以纠正不匹配的属性并完成缺失的内容。最终的模型可以产生具有细粒度细节的高质量重构结果(参见图1)。

最后,我们提出一个新的指标来评估图像重构结果。就给定文本的新视觉属性和与原始图像的文本无关内容的重构而言,该指标可以适当的反映图像重构的性能。在CUB和COCO数据集上进行的广泛实验表明,我们的模型有着优越性,我们的模型在定性和定量上都优于现存的方法。

2相关工作
由于GAN在现实图像生成的成功,文本-图像生成已经引起了广泛的关注。Reed等人建议使用conditional GAN去从给定文本描述生成合理的图像。张等人堆叠多个GAN以生成从粗略到微尺度的高次化图像。徐、李等人使用注意力机制,以探索单词级的细粒度信息。然而,所有上述方法主要关注从文本生成新的现实图像,而不是使用自然语言描述来重构给定图像的特定视觉属性。

条件图像合成。我们的工作与条件图像合成有关。最近,已经提出了各种方法来实现成对的图像-图像翻译,或未

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值