Parallel Multi-Resolution Fusion Network for Image Inpainting论文阅读笔记

最新推荐文章于 2023-12-14 11:34:52 发布

我来了！！！

最新推荐文章于 2023-12-14 11:34:52 发布

阅读量158

点赞数

分类专栏：论文阅读笔记文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45788429/article/details/129842058

版权

论文阅读笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

- ICCV 2021

-本文主要工作：①首次将并行多分辨率网络应用在image inpainting任务上，绘制出合理的纹理。

②提出mask-aware representation fusion

③提出attention-guided representation fusion

④ 提出inpainting priorities修复优先级

- 网络结构

输入为失真图和mask。整个网络分成四个分支进行，对应四个不同的分辨率，从上往下依次为256*256， 128*128，64*64，32*32。较高分辨率有助于学习图像的纹理信息，低分辨率图像有助于学习图像的结构信息。主体网络由六个阶段构成，前五个阶段运用了mask-aware representation fusion 。最后一个阶段应用了attention-guide representation。

主要工作：

-Mask-Aware Representation Fusion

① inpainting priorities

部分卷积的mask更新方式如下：

本文在部分卷积的基础上，进行修改，添加了修复优先级机制。新的mask更新方式如下：

其中m是当前像素p的mask value，sum(Mp)是当前窗口的值之和，q是需要定义的优先级。

对于每一个卷积窗口的中心元素x，q的定义如下：

其中l的取值范围为{3，2，1，0}分别代表四个不同的分辨率{256*256，128*128，64*64，32*32}.

定义的优先级是两部分的乘积：共同优先级sum(Mp)和分辨率优先级pl(x).

共同优先级sum(Mp)：用以计算当前卷积窗口的未掩码的像素数量。其数值越大，代表可用像素越多，即窗口内可用的上下文信息越丰富，故而优先级越高。

分辨率优先级pl(x)：该部分在不同的分辨率下定义的方式不同。在整个网络中，将前三高分辨率定义为高分辨率层，最后一层定义为低分辨率层。对于低分辨率层，由于拥有比较大的感受野，我们希望它更关注图像的结构信息，定义其p(x)：

其中np是在掩码辩越计算出来的法向量，是基于每个部分卷积层中特征图 X 的通道均值计算的等照度（垂直于梯度的方向）。对于高分辨率层，主要对纹理信息进行关注，p(x)定义如下：

其中代表先将特征图下采样再上采样，再与原值进行相减。（有点类似于拉普拉斯金字塔)。

②Fusing Representation with Masks

在网络前五个阶段的结尾，添加了mask-aware representation fusion操作来集成不同分辨率的特征图。分为三种情况：

（1）分辨率相同（k=l）:直接add

（2）低分辨率融合到高分辨率（k<l）:将低分辨率特征图上采样再相加

（3）高分辨率融合到低分辨率（k>l）:通过3*3 步长为2 的卷积下采样特征图再相加

最后，对特征图求平均值

-Attention-Guided Representation Fusion

为了在多分辨率网络中进一步融合高、低分辨率的特征，提出了注意力引导的融合方法。

具体来说，首先将特征图从高分辨率（256，128，64）下采样到最低分辨率（32），再及逆行concat拼接，而后利用自注意力机制计算注意力分数图A。然后将A运用到所有分辨率的特征图上，以提供全局结构信息。

计算注意力分数公式如下：

融合|：

-LOSS FUNCITON

Ig为最终的输出结果。具体来说，通过将四个不同分辨率的特征图concat在一起（低分辨率特征图通过上采样至256分辨率），而后利用两个卷积层输出最后结果。同时也输出了不同分辨率的图像，其中，代表三幅低分辨率的图像，最后loss funciton定义如下：

overall loss：

我来了！！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Parallel Multi-Resolution Fusion Network for Image Inpainting论文阅读笔记

整个网络分成四个分支进行，对应四个不同的分辨率，从上往下依次为256*256， 128*128，64*64，32*32。具体来说，首先将特征图从高分辨率（256，128，64）下采样到最低分辨率（32），再及逆行concat拼接，而后利用自注意力机制计算注意力分数图A。Ig为最终的输出结果。其中l的取值范围为{3，2，1，0}分别代表四个不同的分辨率{256*256，128*128，64*64，32*32}.其中m是当前像素p的mask value，sum(Mp)是当前窗口的值之和，q是需要定义的优先级。
复制链接

扫一扫

专栏目录

我来了！！！ CSDN认证博客专家 CSDN认证企业博客

码龄5年

59: 原创

117万+: 周排名

26万+: 总排名

2万+: 访问

: 等级

663: 积分

24: 粉丝

16: 获赞

15: 评论

99: 收藏

私信

关注

热门文章

分类专栏

最新评论

CUDA编程入门系列（十）并行规约
腾昵猫: 引用「有一种可能就是比如说线程1 是将第0个数和第1个数进行相加，也就是说线程1要访问第0个数和第1个数」在第一次循环第0个线程访问的是数组位置0和1的数值，第1个线程访问的是2和3的数值。所以这里的说法不成立。
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention论文阅读笔记
小棉花kk: 讲得挺好
MAT: Mask-Aware Transformer for Large Hole Image Inpainting论文阅读笔记
keep--learning: 博主您好，这篇论文您复现了吗
解决Jetson AGX xavier开机在Started update utmp about system runlevel changes卡死
Qi妖: 你好麻烦问一下，这个加载界面的时候按 ctrl alt f2 不起作用是怎么回事，进不去这个tty2模式
TFill：Bridging Global Context Interactions for High-Fidelity Image Completion论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。