End-to-end Animal Image Matting

End-to-end Animal Image Matting


论文链接:https://arxiv.org/abs/2010.16188
论文出处:2020 CVPR
1.背景
动物抠图的困境:
(1)在动物抠图任务中有不同种类的动物,它们具有不同的形状、大小、颜色和外观,而不是在其他抠图任务中的单一种类,例如人像抠图
(2)动物的保护色使得前景难以识别,也难以区分动物皮毛与背景语境。
(3)当前可用抠图数据集的限制。
在这里插入图片描述
(4)先前端到端抠图方法存在缺陷:
①Stage-wise segmentation+matting
其依次执行全局分割和局部抠图,其中前者的目标是trimap生成或前景/背景生成而后者是基于从前一阶段生成的trimap或其他先验的图像抠图。
这种流水线的不足归因于它的顺序性,因为它们可能产生错误的语义,该错误不能通过后续的抠图步骤来纠正。此外,两个阶段的单独训练方案可能由于它们之间的不匹配而导致次优解。
在这里插入图片描述
②matting network with global guidance
在执行局部抠图时,提供全局信息作为指导,例如,在下面的抠图网络中生成并使用粗糙的alpha matte,采用空间和通道方向的注意力来为抠图网络提供全局外观过滤。这种方法避免了state-wise的建模和训练问题,但带来了新的问题。
虽然全局指导是以隐式方式提供的,但是在单个网络中同时为前景/背景区域和过渡区域生成阿尔法遮罩是有挑战性的,因为它们具有不同的外观和语义。
在这里插入图片描述
2.内容
(1)提出了一个新颖的 Glance and Focus Matting network (GFM),它使用一个共享的编码器和两个独立的解码器来以协作的方式学习两个任务,用于端到端的动物图像抠图
在这里插入图片描述
(2)建立了一个新的动物抠图数据集(AM-2k),包含来自20个类别的2000幅高分辨率自然动物图像以及手动标记的alpha mattes
在这里插入图片描述
(3)一个精心设计的合成路线RSSN(ii)替代之前的合成方式(i),旨在减少合成图像和自然图像之间的差异,提高模型泛化能力
在这里插入图片描述
3.网络
动物图像抠图可以粗略地描述为一个粗略的分割阶段和抠图阶段。请注意,这两个阶段可能是交织在一起的,因为在第一个阶段会有来自第二阶段的反馈来纠正错误的决定,将它们集成到单个模型中并明确地为协作建模是合理的。为此,提出了一种新颖的端到端自然动物图像的视觉扫视聚焦抠图网络。
网络结构是一个编码解码器的结构,编码器由两个平行的解码器(GD和FD)共享。
然后,以不同的表征域(RoSTa),连接 GD 和 FD 的输出结果。
最后,通过协同合作抠图(CM),将RoSTa中三个不同的表征域的结果,进行合并,获得最终的 alpha 预测
在这里插入图片描述
(1)共享编码器和两个解码器
①被共享的编码器:
以在 ImageNet 上预训练的 ResNet-34 或 DenseNet-121 作为编码器。将单个图像作为输入,通过五个E 0 ~ E 4模块进行处理
②Glance Decoder(GD):
旨在识别容易的语义部分,而将其他部分作为未知区域。为了进一步扩大感受野,在E 4之后增加了一个金字塔汇集模块(PPM)以提取全局上下文训练过程中使用交叉熵损失:
在这里插入图片描述
其中G C P∈[0,1]是第C类的预测概率,G C G∈{0,1}是ground truth标签。 GD的输出是两个或三通道(C = 2或3)类概率图取决于RoSTa表示
③Focus Decoder (FD):
FD旨在提取低层结构特征非常有用的过渡区域的细节。使用一个bridge block(BB)来代替E 4之后的PPM,以在不同的感受野中利用local context。来自E4和BB的特征被连接并馈入D F 4,遵循U-net [40]风格,在每个编码器块E i和解码器块D F i之间添加一个快捷方式,以保留精细细节。
在未知的过渡区域中,训练损失由α预测损失和拉普拉斯损失组成:
在这里插入图片描述
(2)RoSTa(Representation of Semantic and Transition Area)
目的:探讨监控信号的表示格式对系统性能的影响
①GFM-TT:
以ground truth alpha matte以25内核大小膨胀和腐蚀的生成的3-class trimap T作为 GD 监督信号、以未知过渡域的 ground truth alpha matte α作为 FD 监督信号。
②GFM-FT:
以ground truth alpha matte以50内核大小膨胀和腐蚀的生成的 2-class前景分割 mask 作为 GD 的监督信号(I(α> 0)-F的区域被视为过渡区域)、以未知过渡域的 alpha matte作为 FD 监督信号。
③GFM-BT:
以ground truth alpha matte以50内核大小膨胀和腐蚀的生成的 2-class背景分割 mask 作为 GD 的监督信号(B-I(α > 0)的区域被视为过渡区域)、以未知过渡域的 alpha matte作为 FD 监督信号。
(3)Collaborative Matting (CM)
CM合并来自GD和FD的预测以产生最终的alpha预测。具体而言,当CM使用不同的rosta时遵循不同的规则。
①在GFM-TT中,CM用FD的预测替换GD的预测的过渡区域。
②在GFM-FT中,CM将来自GD和FD的预测相加加到生成最终的alpha遮罩中。
③在GFM-BT中,CM从GD的预测中减去了FD的预测,作为最终α遮罩。
通过这种方式,GD通过学习全局语义特征来识别粗糙的前景和背景,并且FD负责通过学习局部结构特征来解决未知区域中的细节。
协同抠图的训练损失由α预测损失Lα、拉普拉斯损失Llap和合成损失Lcomp组成,即:
在这里插入图片描述
4.RSSN
由于前景图像和背景图像通常是从不同的分布中采样的,因此合成图像中会存在大量的合成伪影,这使得合成图像和自然图像之间存在很大的区域差异。合成伪影作为廉价的特征可能会误导模型,导致合成图像过拟合,并在自然图像上产生较大的泛化误差。
文章系统地分析了导致合成伪影的因素,包括分辨率差异、语义歧义、锐度差异和噪声差异。为了解决这些问题,文章提出了一种新的合成路径RSSN和一个名为BG-20k的大规模高分辨率背景数据集。
下图的管道中总结了RSSN管道。
在这里插入图片描述
管道的输入是抠图数据集,
(1)如果抠图数据集提供原始图像,通过从给定alpha matte的原始图像计算前景。
(2)从BG-20k中为每个前景随机抽取K个候选背景进行数据增强。
(3)对于每个前景图像和背景图像,以0.5的概率执行去噪步骤(解决噪声差异)。
(4)为了模拟大光圈的效果,以0.5的概率在背景图像上执行模糊步骤,其中模糊核大小是从{20,30,40,50,60}随机采样的(去除锐度差异)。
(5)根据方程生成合成图像。
(6)在概率为0.5的情况下,我们在合成图像中添加高斯噪声,以确保前景和背景区域具有相同的噪声分布。
(分辨率差异和语义歧义通过使用论文提出的高分辨率无其他动物对象干扰的背景数据集BG-20k解决)
5.结果
设计了两种Benchmark Tracks:
(1)ORI-Track(基于原始图像的跟踪)被设置为对原始自然图像执行端到端的抠图任务。ORI-Track是主要的基准跟踪。
(2)COMP-Track(基于合成图像的跟踪)被设置为执行图像抠图的域自适应研究。缩小合成图像与自然图像的域间隙,学习一个域不变的特征表示,从而得到一个具有更好泛化能力的模型
在这里插入图片描述
ORI-Track上的结果:
与所有的SOTA方法相比,GFM在所有的评价指标上都优于它们,无论使用哪种RoSTa, GFM都能同时分割前景和背景,并在过渡区域上进行抠图,从而获得最佳的性能
COMP-Track上的结果:
在以MS COCO数据集[14]的图像作为背景训练铺垫模型时,GFM的表现明显优于SHM
使用本文提出的BG-20k数据集的背景图像训练拼接模型时(COMP-BG20K),所有方法的误差都显著降低
使用所提出的合成路径训练模型时(COMP-RSSN),可以进一步降低误差

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值