[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

最新推荐文章于 2024-05-11 00:30:00 发布

bananalone

最新推荐文章于 2024-05-11 00:30:00 发布

阅读量2.4k

点赞数

分类专栏：深度学习计算机视觉论文生成对抗网络（GAN）文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/bananalone/article/details/107015156

版权

深度学习同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

计算机视觉论文

4 篇文章 0 订阅

订阅专栏

生成对抗网络（GAN）

1 篇文章 0 订阅

订阅专栏

论文：Attention-Guided Hierarchical Structure Aggregation for Image Matting
代码：wukaoliu/CVPR2020-HAttMatting

介绍

图像抠图是指从输入图像中精确估计前景的不透明度。图像抠图的逆过程是图像合成，合成方程如下：
在这里插入图片描述
其中：

$z$ 指的是输入RGB图像 $I$ 的像素位置
$\alpha _z, F_z, B_z$ 分别是 $z$ 处的 $\alpha$ 估计，前景和背景

传统方法利用颜色分布来预测 $\alpha$ ，但当前景和背景颜色相近时，传统方法便不太适用。

Deep Image Matting（DIM）引入深度学习的方法，通过设计复杂的网络提取高级语义特征，并融合来自输入图像或低级CNN特征的外观线索，但这也依赖于trimaps作为辅助以及昂贵的输入。

本文对高级语义和外观线索进行了综合研究，提出了一种端到端的层次注意抠图网络（HAttMatting），实现了这种层次结构的聚合。高级语义可以提供FG类别和轮廓，而外观提示提供纹理和边界细节。为了更深入地整合这种层次结构，我们在高级语义上进行通道级关注，以选择适合于抠图的特征，并在外观线索上使用空间注意来过滤图像纹理细节，最后将其聚合以预测 $\alpha$ 蒙版。此外，利用均方误差（MSE）、结构相似性（SSIM）和对抗性损失组成的混合损失来优化整个网络的训练。大量的实验表明，我们的注意力引导的层次结构聚合可以感知高质量的 $a l p h a$ 蒙版，只需要RGB图像作为输入。
在这里插入图片描述

方法

概述

由式(1)可知，完整的目标FG应包括两部分：1）表示FG类别和轮廓的主体 $（\alpha _z=1）$ ；2）位于过渡区的内部纹理和边界细节 $（\alpha _z \in（0，1））$ 。前者可以通过高级语义来表示，后者通常来自输入图像或CNN的低级特征，称为外观线索，它们的组合可以实现 $\alpha$ 蒙版。在本文中，我们认为高级语义和外观线索在组合之前需要进行适当的处理。首先，自然图像抠图需要处理不同类型的FG对象，这就要求我们提取高级语义来处理FG信息，并对其进行适当的抑制以降低其对对象类的敏感性。第二，如图3所示，外观线索涉及不必要的背景细节，这些细节需要在 $\alpha$ 蒙版中删除。
在这里插入图片描述
在以上分析的基础上，本研究的核心思想是选择适合于背景信息的语义信息，消除外观线索中冗余的BG纹理，然后对其进行聚合以预测 $\alpha$ 蒙版。为此，我们采用通道注意提取从Atrous空间金字塔池（ASPP）中提取的高级语义，并对外观线索进行空间注意，同时消除FG之外的图像纹理细节。我们精心设计的层次注意机制可以从自适应语义和精细边界中感知FG结构，并且它们的聚合可以获得更好的 $\alpha$ 蒙版。此外，我们结合均方误差（MSE）、结构相似性（SSIM）和对抗性损失，设计了一种混合损失来指导网络训练，分别负责像素级精度、结构一致性和视觉质量。

网络结构

在这里插入图片描述

整体网络设计

HAttMatting结构如图2所示，其使用ResNeXt作为主干网络，将block4中的高级特征图输入到ASSP中获得多尺度语义信息，使用block1中的低级特征图作为外观线索。HAttMatting使用通道注意提取金字塔特征，并对外观线索使用空间注意以抑制多余的背景细节，另外，使用PatchGAN的鉴别器网络提高 $\alpha$ 蒙版的视觉质量。

金字塔特征提取

如图2所示，对金字塔特征使用因子为4的上采样，然后使用全局池化概括特征图，之后采用共享权重的多层感知机提取语义属性，然后用一个sigmoid层来计算通道向的注意力图，并将其乘以上采样的金字塔特征来实现语义提取。通道向的注意可以选择适合图像抠图的金字塔特征，并保留FG轮廓和类别属性。金字塔特征是从深层 ResNeXt 块中学习的，这是一种高度抽象的语义信息，因此我们需要外观线索来生成 $\alpha$ 蒙版中的细节。

外观线索过滤

图像抠图需要精确的FG边界，而高级金字塔特征无法提供这样的纹理细节。因此，我们在 ResNeXt block1 和上采样操作之间架起了一个跳跃连接，它可以传输 $\alpha$ 蒙版生成的外观线索。block1可以从输入图像捕获图像纹理和细节，与第一次上采样拥有相同的空间分辨率。我们将从block1中提取的低级特征作为我们的外观线索。这些外观线索可以描绘复杂的图像纹理，与 $\alpha$ 蒙版感知所需的边界精度兼容。
尽管外观线索显示了足够的图像纹理信息，但只有FG内部或周围的区域能对 $\alpha$ 蒙版的生成有所贡献，因此，我们引入空间注意来过滤BG中的外观线索，同时强调FG中的线索。具体来说，我们使用内核大小 $1\times7$ 和 $7\times1$ 分别执行水平方向和垂直方向的注意。金字塔语义通过两个并行卷积与上述两个过滤核进一步处理，然后，它们的连接作为注意机制来处理初始外观线索，去除属于BG的纹理和细节。在此之后，我们结合过滤的外观线索和提取的金字塔特征，以生成 $\alpha$ 蒙版。

损失函数

在这里插入图片描述
$L_{adv}, L_{MSE}$ 和 $L_{SSIM}$ 可以分别从视觉质量、像素精度和FG结构相似性方面提升 $\alpha$ 蒙版。 $\lambda _1$ 、 $\lambda _2$ 和 $\lambda _3$ 表示损失函数的平衡系数。

$I$ 表示输入图像， $A$ 表示预测的 $\alpha$ 蒙版
在这里插入图片描述
$\Omega$ 表示像素集， $|\Omega|$ 表示像素点的数量（输入图像的大小）， $\alpha _p^i$ 和 $\alpha _g^i$ 分别表示像素 $i$ 处的 $\alpha$ 预测值和真实值

$\mu _p，\mu _g$ 和 $\sigma _p，\sigma_g$ 分别是 $\alpha _p^i$ 和 $\alpha _g^i$ 的平均值和标准差