Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed Scenes 论文解读和感想

Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed Scenes

背景和动机

本文的基本出发点和SPG相似,都是通过获得缺失图像的完整语义分割图像,然后通过语义分割图像引导缺失图像的修复。但是相对于最原始的SPG模型,本文提出了其两个不足之处:
1、在混合场景,直接从缺失图像预测真实图像的语义分割信息是一个困难的任务,而不准确的语义分割信息将会极大降低后续图像inpainting的质量。
2、图像inpainting和语义分割的过程不应该是割裂的,应该是相互促进的。
为此,本文提出了一种单一阶段的图像inpainting模型,通过渐进的方式不断生成更精确的语义分割图像,而语义分割图像又引导模型获得更精确的inpainting结果。此外,为了避免模棱两可的预测,作者还提出了一种对预测的语义分割可信度评价的模块。

方法介绍

作者给出了两个版本,一个是SG-Net,一个是SGE(Evaluation)-Net,这里先讲SG-Net

SG-Net

在这里插入图片描述
SG-Net的整体结构如图所示。其通过一个编码器部分和一个解码器部分构成,编码器部分没有什么要说的,常规结构,而解码器部分则是通过多尺度的方式来逐渐对图像进行修复。首先每一级的特征会被一个语义分割分支和一个inpainting分支映射为对应分辨率的语义分割图和inpainting图,接下来通过一个SGIM模块将当前分辨率特征图,编码器对应的特征图和当前分辨率对应的语义分割图输入,通过语义分割图来引导当前特征图还原为更高分辨率的特征图。通过这种一级一级的方式最终还原为完整图像。此外,为了将语义信息传播到图像生成,在SGIM模块中作者借用了spatial adaptive normalization。但是在这一部分中为什么做了一个归一化后又做了一个仿射变换,本人没有看明白。
在这里插入图片描述

SGE-Net

在这里插入图片描述

以上模型可以通过将语义分割和图像inpainting相互促进,由粗到细最终得到完整的inpainting结果,但是依然无法解决我们开头提到的第一个问题。因此,作者又提出了一种改进模式,即引入对每一级语义分割图的置信度,通过最大化分割的置信度来避免模棱两可的语义分割。具体来说,对于 k k k类的语义分割任务,其语义分割结果的每个pixel有着 k k k个通道,分别代表 k k k类的概率,如果其中对于每一类的概率预测都小于某个阈值,那么就认为其语义分割不准确。之后会根据置信度生成一个置信度mask矩阵,来标记出那些置信度不高的区域。
作者在这里将SG-Net中的SGIM模块称之为base-net F b a F_{ba} Fba,然后将置信度矩阵的处理过程称之为bias-net F b i F_{bi} Fbi,之后通过在这里插入图片描述
的方式将置信度矩阵以attention的形式作用在当前 F b a F_{ba} Fba的输出上。
最后,本文的损失非常直观:
1、多尺度重构损失+多尺度感知损失:
在这里插入图片描述
2、多尺度patch对抗损失:
在这里插入图片描述
3、对语义分割结果的交叉熵损失:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值