-
论文信息
- 标题: Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation
- 作者:Hao Tang, Dan Xu, Nicu Sebe, Yanzhi Wang, Jason J. Corso, Yan Yan
- 机构:University of Trento, Trento, Italy; Texas State University, San Marcos, USA; University of Oxford, Oxford, UK ; Huawei Technologies Ireland, Dublin, Ireland; Northeastern University, Boston, USA; University of Michigan, Ann Arbor, USA
-
代码链接
- https://github.com/Ha0Tang/SelectionGAN
-
论文主要贡献
- 新的用于多视角图像翻译的多通道注意力选择 GAN 模型,结合了语义信息指导和多尺度的粗粒度到细粒度的推理过程,能够生成更具细节信息的合成结果
- 新的多通道注意力选择模块,重点关心中间输出生成结果如何以恰当的比例进行组合,选择性的组合对最终的输出结果的质量进行优化,并生成不确定性图用于指导像素级的 loss 用于更鲁棒的网络优化
- 实验结果证明模型可以生成比 SOTA 方法有效的信转换结果,建立了大规模的多视角合成问题的 benchmark
-
论文要点翻译
- 摘要
- 不同视角的图像之间的跨视角翻译任务极具挑战,因为该任务中的跨视角图像可能是完全不同的,相互之间存在许多的差异信息
- 本文提出新的多通道注意力选择 GAN 模型,这使得自然场景转换为任意视角的图像成为可能。提出的 SelectionGAN 显式地利用语义信息,主要由两个阶段组成
- 第一阶段,使用条件图像和目标的语义分割图作为输入,放入一个循环的语义指导的生成网络,生成需力度的结果
- 第二阶段,使用多通道的注意力选择机制对初始预测结果进行优化,进而自动地从注意力图中学习不确定性分布关系,并以此指导像素级的用于优化网络训练的 loss
- 实验表明模型可以生成比 SOTA 方法更好的结果
- 引言
- 跨视角图像翻译主要目标在于根据一个视角的图像合成新的另一个视角的图像,该任务是计算机视觉和虚拟现实领域一个受到广泛关注的研究点
- 早期的跨视角图像翻译主要使用编码器-解码器的 CNN 网络,将视角以 bottle-neck 的结构编码视角信息,这些信息被用于合成城市场景图像合成,3D 目标翻译等
- 也有一些工作使用 GAN 进行图像的跨视角翻译,但是这些工作都是考虑场景中的外观的大范围重叠的
- 和之前工作不同,本文更加关注更具挑战性的环境设置,不同视角的图像交叉部分很少甚至是没有交叉,这使得原输入图像和输出的图像之间可能有较大的外观和结构分布的差异,为了解决这个问题,之前有方法使用条件 GAN 模型联合地学习图像域和语义域,对应的语义分割预测结果进一步被用于监督图像生成过程;虽然该方法是一次有意义的探索工作,但是生成的场景结构和细节信息仍然差强人意,主要原因在于:(1)由于获取手工标注的语义标签较难获取,模型中通常使用预训练的语义分割模型生成的结果,这使得对所有像素的精确度不够,因此会错误地引导图像生成过程;(2)本文认为,单阶段的生成网络网络无法捕获足够的场景结构关系;(3)三通道的生成空间不足以适应都咋的合成映射问题。考虑到这单个问题,需要增强生成空间,并学习自动的选择机制合成细粒度的生成结果
- 基于上述观察,本文提出了新的多通道注意力选择 GAN(SelectionGAN),包含两个生成阶段:(1)第一阶段,学习循环的图像到语义分割图的生成自网络,接受一张图像和目标图像的语义分割图作为输入,生成目标视角的图像,进而在将生成的图像进行语义分割得到输入的语义分割图,以此实现循环的生成模型,循环生成带来更强的监督信号,有助于优化网络训练;(2)第一阶段生成的粗粒度结果,结合输入的图像和最后一层的特征图,被作为第二阶段的输入,第二阶段生成几个中间输出,同时,模型学习多通道的注意力图,注意力图与中间输出的数量相同,这些注意力图用于在空间上从中间输出结果进行选择,组合成最终的输出结果;为了刻度不准确的语义标签的问题,多通道的注意力图还用于指导生成不确定图,用于指导重建 loss
- 实验结果说明,SelectionGAN 生成比 pix2pix、X-Fork、X-Seq 等网络更好的结果
- 相关工作
- GAN 相关工作:GAN 的工作原理、vanilla GAN、CGAN
- 图像翻译:使用输入输出数据对输入和输出学习参数化的映射关系,CGAN、CycleGAN
- 学习视角转换
- 方法
- 层次化的语义指导的图像生成
- 语义指导的生成:跨视角图像合成极具挑战,因为两个视角可能交叠部分极少甚至没有,导致推理的歧义性较强,为了解决该问题,本文使用语义分割的结果作为条件 GAN 的指导,由于获取标注的语义分割结果代价较大,本文使用语义分割的深度模型用于语义分割,但是只用语义分割图用于重建 loss 可能造成的监督和指导作用不明显,因此,本文采用的不仅仅之江语义分割图用于判断输出 loss,而且将语义分割图也作为网络的部分输入,即本文方法将输入视角图像 I a I_a Ia 和目标视角语义分割图 S g S_g Sg 作为输入,合成新视角的图像 I g ′ = G i ( I a , S g ) I_g^{'}=G_i(I_a,S_g) Ig′=Gi(Ia,Sg),使得真实值的语义标签图作为更强的监督信号指导图像生成
- 语义指导的循环:同时进行语义标签的生成图像的生成可以改进生成性能,因此,本文提出循环的语义生成网络,使得语义信息能够在学习过程中更好地指导网络训练。条件语义分割图和输入图像被输入合成网络,生成合成图像,合成的图像再作为输入,从语义分割生成器中获得新的语义分割图,将改图与原始的语义分割图比较,网络的生成过程要使得生成的新的语义分割图与原始的语义分割图尽可能接近,达到循环一致的目的。换言之,两个生成器通过真实的语义标签图进行链接,提供了更强的生成器的约束,更好的学习图像的语义结构一致性信息
- 层叠的生成:由于任务复杂性高,第一阶段后本文使用另一个阶段网络进行优化,第一阶段生成的结果有毛刺,且和目标图像像素级的差异较大,因此引入第二阶段的粗粒度到细粒度的结果优化策略,提升图像合成的形态能。层叠模型已经在许多计算机视觉任务中得到使用,其有效性的以证明,本文在两个阶段都是用基本的循环语义指导生成模型,第二阶段更提出将粗粒度输出调优生成细粒度输出的多通道注意力选择模块
- 多通道注意力选择
- 多尺度空间池化:为了捕获全部的必要的空间信息用于细粒度的结果合成,本文提出多尺度的空间池化策略,使用不同的核大小和步长的全局平均池化操作作用到相同的输入特征,以此得到多尺度、感受野不同的特征,捕获不同的空间上下文
- 具体来说,给定输入的第一阶段生成的语义特征以及粗粒度的输出结果,将这信息拼接得到第二阶段的输入特征 F = c o n c a t ( I a , I g ′ , F i , F s ) \mathcal{F}={concat}(I_a,I_g^{'},F_i,F_s) F=concat(Ia,Ig′,Fi,Fs),设置不同的 M 个尺度,得到不同空间分辨率的池化的信息,将每个池化特征以元素对应乘的方式和输入特征进行结合,由于任务中的输入特征来自不同源,高度相关的特征更有助于结果生成,将 p l _ u p s pl\_up_s pl_ups 表示 s 尺度的池化操作,这之后有上采样操作得到重新调整大小的池化特征,再以元素对应乘的方式将其进行组合,即: F ← c o n c a t ( F c ⨂ p l _ u p 1 ( F c ) , . . . , F c ⨂ p l _ u p M ( F c ) {\mathcal{F} \leftarrow concat(\mathcal{F}_c\bigotimes pl\_up_1(\mathcal{F}_c),...,\mathcal{F}_c\bigotimes pl\_up_M(\mathcal{F}_c) } F←concat(Fc⨂pl_up1(Fc),...,Fc⨂pl_upM(Fc)
- 多通道注意力选择:给定多尺度的特征 volume F c ′ ∈ R h × w × c \mathcal{F}_c^{'}\in \mathbb{R}^{h\times w \times c} Fc′∈Rh×w×c,两个方向的学习:生成多个中间图像输出结果和生成多通道注意力图,并将这些结果进行组合:
- I G i = t a n h ( F c ′ W G i + b G i ) I_G^{i}=tanh(\mathcal{F}_c^{'}W_G^i+b_G^i) IGi=tanh(Fc′WGi+bGi)
- I A i = S o f t m a x ( F c ′ W A i + b A i ) I_A^i= Softmax(\mathcal{F}_c^{'}W_A^i+b_A^i) IAi=Softmax(Fc′WAi+bAi)
- I g ′ ′ = ( I A 1 ⨂ I G 1 ) ⨁ . . . ⨁ ( I A N ⨂ I G N ) I_g^{''}=(I_A^1\bigotimes I_G^1)\bigoplus ...\bigoplus (I_A^N\bigotimes I_G^N) Ig′′=(IA1⨂IG1)⨁...⨁(IAN⨂IGN)
- 不确定性指导的像素级损失
- U i = σ ( W u i ( c o n c a t ( I A 1 , . . . , I A N ) ) + b u i ) U_i=\sigma(W_u^i(concat(I_A^1,...,I_A^N))+b_u^i) Ui=σ(Wui(concat(IA1,...,IAN))+bui)
- L p i ← L p i U i + log U i \mathcal{L}_p^i\leftarrow \frac{\mathcal{L}_p^i}{U_i}+\log U_i Lpi←UiLpi+logUi
- 参数共享的判别器
- 层次化的语义指导的图像生成
- 摘要
论文笔记-Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Tran
最新推荐文章于 2024-04-18 09:58:12 发布