前端不规则图像点击_ICCV 2019:基于关联语义注意力模型的图像修复

507d5737c06ddf349ec9a087443558a1.png

作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

5b5dd2237c0782616d9a39689759420e.png

论文链接:https://www.paperweekly.site/papers/3187

代码链接:https://github.com/Yukariin/CSA_pytorch

论文引入

图像修复问题的关键是维持修复后图像的全局语义一致性以及破损区域的细节纹理合理性。近期关于图像修复问题的研究主要集中于通过使用空间注意力机制或利用原始图像的有效像素去预测缺失区域两种策略,这两种方法由于忽略破损区域的语义相关性和特征连续性,经常会产生模糊纹理或结构混乱的问题(如图 1)。

64e47488a9fbfc56007900fe01d6fb66.png
▲ 图1. 现有图像修复算法比较

为了解决这一问题作者借鉴人工修复图像的过程提出了基于关联语义注意机制的图像修复模型,该模型不仅能修复不规则缺失图像而且能保证修复后图像的全局一致性。

模型介绍

基于关联语义注意机制的图像修复模型主要由两部分组成,首先图像经过一个粗略的修复网络(Rough Network),该网络基于 U-Net 架构。之后将 Rough Network 修复后的图像结合原破损图像作为更细致的修复网络(Refinement Network)的输入进行进一步的修复。最后作者通过 feature 鉴别器以及 patch 鉴别器与修复网络进行对抗,具体架构如图 2 所示。

323105db52b9b0a1d74ff65f76260486.png
▲ 图2. 模型架构

在 Refinement Network 中作者在编码过程和解码过程中分别对应嵌入了有关联的语义注意力层(CSA),该层是通过将破损区域内的前向临近像素块作为下一像素块的语义引导进行修复。

主要过程分为搜索和生成两部分(如图 3 所示),首先在已知区域的特征映射

中搜索与破损区域的特征映射 M 最接近的像素块来初始化破损区域,其中采用互信息来衡量两像素块之间的相似度(如图 4 所示),具体操作是将
中的像素块作为卷积核并应用于 M 上,从而计算出有最大互信息
的像素块。

之后将

作为主要引导,前向相邻块
作为次要引导结合归一化后生成像素块
,即:

981e08d79641d09a45ee1c24f7de440e.png

由于第一个像素块没有前向相邻像素块,因此第一个像素块的信息完全来自于

,之后迭代该过程 2~n 次从而修复破损区域。

5a1cc79ec569acd72adc49b7539f7a5e.png
▲ 图3. CSA层

5d0faa3505d14f0b8806f1d54c5944bb.png
▲ 图4. 互信息


作者在编码过程中嵌入了 CSA 层,为了能在解码时重建 M 作者定义了注意力映射矩阵 A,并在解卷积中复用该矩阵,整个过程的伪代码如图 5 所示。

252e72eeba19054b88872ae1485ca97c.png
▲ 图5. CSA伪算法

为了能适应 CSA 层的训练作者还提出了一致性损失,该损失调整了传统的感知损失,使用 VGG-16 作为预训练模型提取原始图像的高层特征信息,通过缩小经过 CSA 层之后的特征以及其对应的解卷积后的特征与原始图像的特征之间的 L2 距离来提高修复效果。一致性损失的定义如下:

eea47d67365985a410d2c8a1d8db4b90.png

为了能让模型适应于不规则区域的图像修复,作者还提出了一种新颖的特征鉴别器,特征鉴别器通过计算修复后图像和原始图像的特征映射来判断图像的真假,具体架构如图 6 所示。在特征鉴别器中作者采用了 VGG 网络作为预训练网络来提取图像特征,之后将提取后的特征再经过几层下采样来计算对抗损失。为了保证训练稳定作者也加入了 70*70 的 patch 鉴别器作为辅助鉴别器。

29f0da68fcb480ecb5d8f709b8075629.png
▲ 图6. feature discriminator架构

实验结果

作者使用了 Places2,CelebA 以及 Paris StreetView 数据集进行实验,选取 Contextual Attention (CA),Shift-net (SH),Partial Conv (PC) 以及 Gated Conv (GV) 作为 baseline 进行比较。部分实验结果如图 7 所示,可以看出其他方法会产生或多或少的结构混乱或细节缺失问题,CSA 模型应用在不规则缺失图像修复上的效果也优于其他 baseline 模型。

2cbb3a4b982ffb4b4f5e2da3deb55121.png

a474dbe8e0f7af64cdc1a93813dc81d0.png
▲ 图7. 修复效果比较

总结

作者提出了一种新颖的关联语义注意力图像修复模型,该模型将图形修复分为粗修复和精修复两部分,综合考虑时间成本以及修复效果,作者将关联语义注意力层 CSA 嵌入精修复网络的第四层编码-解码中,通过 ablation 研究发现 CSA 层确实可以提高模型的修复效果,产生更加合理的修复结果。

#投 稿 通 道#

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

投稿方式:

• 方法一:在PaperWeekly知乎专栏页面点击“投稿”,即可递交文章

• 方法二:发送邮件至:hr@paperweekly.site ,所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

加入社区:http://paperweek.ly

微信公众号:PaperWeekly

新浪微博:@PaperWeekly

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值