MAT: Mask-Aware Transformer for Large Hole Image Inpainting论文阅读笔记

-CVPR 2022

-实例: 

Image Inpainting任务中,建立像素远距离相互作用,建立上下文信息之间的关系尤为重要。但现有的工作存在以下问题:

①堆叠卷积层来扩大感受野。这种方法在重纹理图像(森林,水)上表现得很好,但在结构复杂的图像上则表现不佳。

②注意力模块进行远距离建模。由于计算能力有限,注意力模块只在小尺寸特征上进行应用,远距离建模没有充分利用。

③Transformer远距离建模。受复杂度影响,现有Transformer只能通过恢复低分辨率图像进行结构预测。

本文贡献:

①提出一种新的框架Mask-aware Transformers(MAT),处理高分辨率图像。

②提出多头上下文注意力模块,只对有效的token进行计算。

③提出改进的Transformer block,提高训练稳定性。

④提出风格操作模块,使得修复结果多元化。

网络结构:

     整体结构由 卷积头、Transformer Body、卷积尾和风格操作模块组成。 结合了卷积和Transfomer的优点,对图像进行修复。

-卷积头:

        卷积头主要由四个卷积层构成,其中一个卷积层用于改变输入的维度,其他三个卷积层进行下采样操作。以此产生原图八分之一大小分辨率大小的特征图用作输入Transforer块的Tokens。 使用卷积头的两个原因: ①使用卷积层加入局部归纳先验 ②下采样以降低计算成本

-Transformer Body

①改进的transformer 块

      ① 删除Layer Normalization层归一化:在大面积缺失的情况下,大部分的token是无效的,层归一化会放大这些无效token        

        ②删除残差连接,改为concat:残差连接鼓励模型学习高频信息,在训练初期,没有低频的基础,很难直接学习高频细节。 

②多头上下文注意力模块

        利用动态掩模版的方式,只对有效的token进行计算,该部分可表示为:

 动态掩模版的更新方式:

 更新规则: 只要当前窗口有一个token是有效的,经过注意力后,该窗口的所有token都会更新为有效的。 如果一个窗口中的所有token都是无效的,经过注意力后,他们仍然无效。

③Style Manipulation Module

        SMM通过额外的噪声输入以及改变卷积层的权重归一化来操作输出。为了增强噪声输入的表示能力,图像的条件风格从图像特征X和噪声中进行学习。

-Loss Function

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值