[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

论文:Attention-Guided Hierarchical Structure Aggregation for Image Matting
代码:wukaoliu/CVPR2020-HAttMatting

介绍

图像抠图是指从输入图像中精确估计前景的不透明度。图像抠图的逆过程是图像合成,合成方程如下:
在这里插入图片描述
其中:

  • z z z 指的是输入RGB图像 I I I 的像素位置
  • α z , F z , B z \alpha _z, F_z, B_z αz,Fz,Bz 分别是 z z z 处的 α \alpha α 估计,前景和背景

传统方法利用颜色分布来预测 α \alpha α,但当前景和背景颜色相近时,传统方法便不太适用。

Deep Image Matting(DIM)引入深度学习的方法,通过设计复杂的网络提取高级语义特征,并融合来自输入图像或低级CNN特征的外观线索,但这也依赖于trimaps作为辅助以及昂贵的输入。

本文对高级语义和外观线索进行了综合研究,提出了一种端到端的层次注意抠图网络(HAttMatting),实现了这种层次结构的聚合。高级语义可以提供FG类别和轮廓,而外观提示提供纹理和边界细节。为了更深入地整合这种层次结构,我们在高级语义上进行通道级关注,以选择适合于抠图的特征,并在外观线索上使用空间注意来过滤图像纹理细节,最后将其聚合以预测 α \alpha α 蒙版。此外,利用均方误差(MSE)、结构相似性(SSIM)和对抗性损失组成的混合损失来优化整个网络的训练。大量的实验表明,我们的注意力引导的层次结构聚合可以感知高质量的 a l p h a alpha alpha 蒙版,只需要RGB图像作为输入。
在这里插入图片描述

方法

概述

由式(1)可知,完整的目标FG应包括两部分:1)表示FG类别和轮廓的主体 ( α z = 1 ) (\alpha _z=1) αz=1;2)位于过渡区的内部纹理和边界细节 ( α z ∈ ( 0 , 1 ) ) (\alpha _z \in(0,1)) αz01。前者可以通过高级语义来表示,后者通常来自输入图像或CNN的低级特征,称为外观线索,它们的组合可以实现 α \alpha α 蒙版。在本文中,我们认为高级语义和外观线索在组合之前需要进行适当的处理。首先,自然图像抠图需要处理不同类型的FG对象,这就要求我们提取高级语义来处理FG信息,并对其进行适当的抑制以降低其对对象类的敏感性。第二,如图3所示,外观线索涉及不必要的背景细节,这些细节需要在 α \alpha α 蒙版中删除。
在这里插入图片描述
在以上分析的基础上,本研究的核心思想是选择适合于背景信息的语义信息,消除外观线索中冗余的BG纹理,然后对其进行聚合以预测 α \alpha α 蒙版。为此,我们采用通道注意提取从Atrous空间金字塔池(ASPP)中提取的高级语义,并对外观线索进行空间注意,同时消除FG之外的图像纹理细节。我们精心设计的层次注意机制可以从自适应语义和精细边界中感知FG结构,并且它们的聚合可以获得更好的 α \alpha α 蒙版。此外,我们结合均方误差(MSE)、结构相似性(SSIM)和对抗性损失,设计了一种混合损失来指导网络训练,分别负责像素级精度、结构一致性和视觉质量。

网络结构

在这里插入图片描述

整体网络设计

HAttMatting结构如图2所示,其使用ResNeXt作为主干网络,将block4中的高级特征图输入到ASSP中获得多尺度语义信息,使用block1中的低级特征图作为外观线索。HAttMatting使用通道注意提取金字塔特征,并对外观线索使用空间注意以抑制多余的背景细节,另外,使用PatchGAN的鉴别器网络提高 α \alpha α 蒙版的视觉质量。

金字塔特征提取

如图2所示,对金字塔特征使用因子为4的上采样,然后使用全局池化概括特征图,之后采用共享权重的多层感知机提取语义属性,然后用一个sigmoid层来计算通道向的注意力图,并将其乘以上采样的金字塔特征来实现语义提取。通道向的注意可以选择适合图像抠图的金字塔特征,并保留FG轮廓和类别属性。金字塔特征是从深层 ResNeXt 块中学习的,这是一种高度抽象的语义信息,因此我们需要外观线索来生成 α \alpha α 蒙版中的细节。

外观线索过滤

图像抠图需要精确的FG边界,而高级金字塔特征无法提供这样的纹理细节。因此,我们在 ResNeXt block1 和上采样操作之间架起了一个跳跃连接,它可以传输 α \alpha α 蒙版生成的外观线索。block1可以从输入图像捕获图像纹理和细节,与第一次上采样拥有相同的空间分辨率。我们将从block1中提取的低级特征作为我们的外观线索。这些外观线索可以描绘复杂的图像纹理,与 α \alpha α 蒙版感知所需的边界精度兼容。
尽管外观线索显示了足够的图像纹理信息,但只有FG内部或周围的区域能对 α \alpha α 蒙版的生成有所贡献,因此,我们引入空间注意来过滤BG中的外观线索,同时强调FG中的线索。具体来说,我们使用内核大小 1 × 7 1\times7 1×7 7 × 1 7\times1 7×1 分别执行水平方向和垂直方向的注意。金字塔语义通过两个并行卷积与上述两个过滤核进一步处理,然后,它们的连接作为注意机制来处理初始外观线索,去除属于BG的纹理和细节。在此之后,我们结合过滤的外观线索和提取的金字塔特征,以生成 α \alpha α 蒙版。

损失函数

在这里插入图片描述
L a d v , L M S E L_{adv}, L_{MSE} Ladv,LMSE L S S I M L_{SSIM} LSSIM 可以分别从视觉质量、像素精度和FG结构相似性方面提升 α \alpha α 蒙版。 λ 1 \lambda _1 λ1 λ 2 \lambda _2 λ2 λ 3 \lambda _3 λ3 表示损失函数的平衡系数。
在这里插入图片描述
I I I 表示输入图像, A A A 表示预测的 α \alpha α 蒙版
在这里插入图片描述
Ω \Omega Ω 表示像素集, ∣ Ω ∣ |\Omega| Ω表示像素点的数量(输入图像的大小), α p i \alpha _p^i αpi α g i \alpha _g^i αgi 分别表示像素 i i i 处的 α \alpha α 预测值和真实值
在这里插入图片描述
μ p , μ g \mu _p,\mu _g μpμg σ p , σ g \sigma _p,\sigma_g σpσg 分别是 α p i \alpha _p^i αpi α g i \alpha _g^i αgi 的平均值和标准差

实验

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

参考

1.【抠图中的注意力机制】HAttMatting—让抠图变得如此简单!
2. Alpha通道的概念与功能

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值