特征图注意力_【抠图中的注意力机制】HAttMatting---让抠图变得如此简单!

编辑:murufeng
Date:2020-6-29
来源: 深度学习技术前沿微信公众号
链接: 【抠图中的注意力机制】HAttMatting---让抠图变得如此简单!

【导读】图像抠图(Image Matting)是一个无论在工业界或者视觉研究领域都有非常重要价值的研究课题。从2000年开始,在进行图像抠图及相近研究问题的研究过程中,诞生了类似GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting等等对各计算机视觉以及计算机图形学研究都有深远影响的工作。在好莱坞的动作大片、迪士尼的动画巨作、Office以及Adobe PhotoShop的一些功能中都能够看到抠图算法的身影。

求解抠图问题需要我们对一张图像,分别求解出它的前景、背景以及alpha matte。alpha matte是我们常说的alpha通道,基于alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此alpha matte是和原图同大小的一个单通道图像,每个像素都对应于原RGB图像相同位置像素的alpha值。根据基本假设,对于一张RGB 图像,每个像素在R、G、B这三个通道上的强度(intensity)是由前景以及背景的凸组合构成的,即

8199b53bb655be31076f43a174be4cea.png

怎样实现既高质量又无需用户交互的图像抠图一直是学术界和工业界在努力追求的目标,近日,随着CVPR2020论文的正式公开,有这样一篇文章,在自动抠图领域又向前走了一步,本篇文章我将为大家介绍CVPR2020中的这篇Image Matting论文,看看它提出来哪些新的解决方法:

b76a7f4aaf47feaf1b2168b893c48759.png
  • 论文作者及团队:来自大连理工大学、大连大学、郑州大学,其中第一作者有两位,分别是博士生乔羽和硕士生刘宇豪。
  • 代码地址:
  • https://github.com/wukaoliu/CVPR2020-HAttMatting
  • 论文链接:
  • http://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf

论文摘要

Abstract:现有的基于深度学习的抠图算法主要依靠高级语义特征来改进alpha mattes的整体结构。然而,我们认为从cnn中提取的高级语义对alpha感知会导致语义不平等,我们应该调节高级语义信息和低级外部特征,从而来改进前景细节。在本文中,我们提出了一种端到端分层的注意力抠图网络(HAttMatting),它可以在不增加额外输入的情况下从单张RGB图像中预测出更好的alpha抠图结构。具体地说,我们利用空间和通道相结合的注意力机制,以一种新颖的方式对外部结构和金字塔特征进行整合。这种混合注意机制可以从精细的边界和自适应的语义来感知alpha mattes。本文还引入了融合结构相似性(SSIM)、均方误差(MSE)和对抗损失所构成的混合损失函数,从而使得训练网络进一步改善整体前景结构。此外,我们构建了一个由59,600张训练图片和1000张测试图片(总计有646个distinct foreground alpha mattes)组成的大规模Image matting数据集,进一步提高了层次结构聚合模型的鲁棒性。大量的实验表明,该算法能够捕获复杂的前景结构,并且将单幅RGB图像作为输入的话,能达到SOTA的性能效果。

论文实现方法

论文中提出的图像抠图网络 HAttMatting 架构,以单幅RGB图像为输入,通过特征提取网络(FEM)提取多层特征。然后,将最深层的、语义丰富的特征输入到所提出的层级注意力机制(HAM)模块中,通过对高级语义进行自适应的特征筛选来实现Image Matting中 Class-Agnotisc 且 Matting-Adaptive 的特征,进而以此作为引导信息,对包含结构,纹理细节信息的低维特征执行空间注意力,以此达到对 Matting 边缘细节补全和优化的目的。

462d147b1e9f8adf2ea8ec8ce6dce8a0.png

通过这种方式,HAttMatting 利用 FG 定位+boundary 优化,并辅之以对抗网络用于提升可视化效果,随之对网络的输出进行二倍上行采样,得到原始图像分辨率大小的Alpha Matte作为输出。

该方法的核心思想:在高级特征中消除冗余语义,在空间层面中消除无用的BG细节,然后将它们聚合在一起来预测准确的alpha mattes。为此,本文便采用通道注意结构来提取金字塔特征,同时利用空间注意机制来消除FG外的图像纹理细节。

Distinctions-646 数据集

8defde4a910eb04f9048dc2de21cff04.png

上面的图片是我们的Distinctions-646数据集中的一个样例,该数据集包括646个单独的FG图像组成。我们将FG对象划分为596和50,然后按照DIM中的合成规则生成59,600张训练图像和1000张测试图像。

效果展示

论文作者采用了Image Matting领域通用的四个评价(SAD, MSE, Grad, Conn)指标对该方法分别在 Adobe 数据集[1]和自建的 Distinctions-646 上进行了定性评估。

34447a0bf48cf7b0e335ed4070d34737.png

在Adobe数据上对比的方法都是ImageMatting领域最新的模型,如Late fusion,Context-aware,Indexnet等。从结果上来看,该方法在无需Trimap的众多方法中达到SOTA,甚至在一些指标上超越了基于Trimap的一些方法。

4bfaffccdcf92d7f524b37272a099db1.png

58678f2c8b36349be971c67cd7bad94a.png

在自身的Distinctions-646数据集上也对一些公开源码的Matting模型进行了重新训练和预测,其提出的HAttMatting模型也实现了SOTA的结果。

该方法在Adobe[1]的一千张测试集上,可以达到平均0.2s一张图片的处理速度,这对于今后模型迁移至视频流任务和实时性要求较高的任务也是一个很好的铺垫。

数据可视化

44efe6f3eea71e69499ebbb70b4eb065.png

从在Adobe[1]数据的可视化结果来看,本文的方法在无需Trimap做辅助的情况下也可以达到一个很好的效果。

2cac0e54ef1fafb5ab7f408d777d4ec4.png

e758982508b18a3e772442aceafb5421.png

除了标准测试集上的结果展示外,研究人员从网络上搜索的一些自然图片和这些图片预测的AlphaMatte结果如上图所示。

Conclusion

在本文中,我们提出了一种分层的注意力抠图网络(HAttMatting),它可以从单张RGB图像中预测高质量的alpha mattes。HAttMatting采用通道注意力来提取的匹配语义信息,用空间注意机制来消除FG外的图像纹理细节。大量的实验表明,我们的分层结构聚合能够有效地从输入图像中提取出高水平和低水平的特征,并在不需要外部三映射的情况下实现高质量的alpha mattes。

在未来,我们将探索更有效的策略来改进我们的注意力机制,我们相信它可以更有效地聚合高级语义和外部信息,从而进一步提高我们的网络的泛化性和鲁棒性。后续,我们还会围绕通用物体快速高精准的抠图来展开研究,以此来进一步扩展问题,并缩小合成数据和自然图像之间的差异,提高应用价值。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值