论文阅读——Semantic Image Matting

摘要:传统的抠图算法还没有出现根据前景类别进行更细致抠图的情况。本文的工作展示了如何通过纳入抠图区域的语义分类来获得更好的 alpha 抠图。具体来说,通过学习20种类的抠图模式,我们提出将传统的三分图扩展到语义三分图。我们提出的语义三分图可以通过对三分图进行patch struction分析自动获得。同时,我们的模型中还学习了一种多类别判别器在语义层面对预测的alpha进行正则化,并使用内容敏感权重来平衡不同的正则化损失。最后,论文中还提出一个大规模的语义图像抠图数据集,并对不同的语义类别进行数据平衡。

一、概述

考虑之前的深度学习方法知识在数据层面运用了语义信息,并且由于不同种类的语义而没有充分考虑抠图的根本原因。

论文中提出将抠图区域的语义分类信息加入抠图框架来更好的获取alpha图。具体而言,我们首先根据区域抠图模式对 20 个不同的抠图类别进行聚类。因此论文的抠图类别包括前景物体的大部分典型种类。然后由卷积类别判断三分图扩展到语义三分图,其是由三分图中未知区域的抠图类别组成的2维置信度图,然后作为framework的输入。同时,我们还学习一个用于监督的多类鉴别器,从语义级别为 alpha 预测提供正则化。为了提高预测效果,论文还引入带内容敏感权重的梯度约束来平衡正则化损失。总结来看,本论文的主要贡献有:

1、首个引入语义分类信息用于自然图片抠图的工作

2、语义trimap,提出可学习的内容敏感权重和使用多类鉴别器用于正则化抠图结果

3、提出类别均衡的Image Matting数据集

二、方法

1、框架

网络的输入为rgb原图和对应的语义trimap,输出为alpha估计。

(1)Patch-Based Classifier

语义trimap是由多个层concat而来的,包括传统意义的三分图(确定前景、确定背景和未知区域)、n通道的置信度图(本文是20类别,则n等于20,表示未知区域每个像素属于n个类别中的哪一个)。n通道的置信度图是通过 patch-based structure对未知区域进行半监督自动获得的。

我们的分类器是由混合数据训练而来的,其中的训练图片都根据patch labels(即matting类别)进行划分。一张alpha图片通常包括多个matting模式,所以一张alpha图片会对应多个区域,每个区域对应一个固定的分类类别。当训练这些分类器时,我们从混合图片的未知区域随机裁剪一个方形patch,且裁剪区域为160-640随机选择,然后统一放到320的大小。然后分类器将该patch和其对应的卷积trimap作为输入,预测出该patch对应的类别。分类器训练完毕后,论文会计算n通道的分数图,通常是将最后的卷积特征图和全连接权重相乘。

在推断过程中,论文是通过多尺度patch分析获得整个输入图片的语义trimap。准确来说,我们是将输入图片划分到多尺度重叠patch中,并且将其与对应的scope map缝合在一起,作为论文的语义trimap。

和卷积trimap对比,语义trimap为网络提供了先验知识来减少每个类别的搜索空间,将模型集中于预测更可靠的alpha图。

(2)Encoder-Decoder Structure

论文的框架采用类似U-Net的结构。其中encoder由resnet50改变而来,在其基础上加了下采样。膨胀卷积层被用来放大感受野。在encoder和decoder的连接中间加了个ASPP模块,其作用是集合不同感受野的特征来增强特征表达能力。之后,三个上卷积层通过集合高维特征和高分辨率特征来恢复空间信息。论文利用三个预测头同时预测F、B和alpha。

(3)Multi-Class Discriminator

论文应用了多类鉴别器来使模型了解特定结构并保留相关alpha模式的统计信息。在开始训练matting网络时,首先用Semantic Image Matting Dataset对分类器进行训练。就是在每次迭代过程中,从未知的特定类别领域随机裁剪一个方形区域,然后喂到分类器中。在分类器训练完毕后会用于生成分类误差和特征重构误差。在训练过程中,后的预测的alpha patch后,会和gt patch一起被送到训练好的分类器用于生成各自的多类别概率和多维特征f。因此在最后损失计算时,叠加了每层特征重构误差和最后的类别损失,更好的提高了网络的一致性。

(4)Content-Sensitive Weights

每个matting类别代表不同的外观和结构,因此其各自的颜色和alpha表现出与其他类别不同的梯度分布。所以引入了如下的梯度公式。

通过引入具有可学习的内容敏感权重的梯度约束,论文框架学习了梯度贡献和语义表示之间的隐含关系,从而指导模型区分图像结构的来源。

2、损失函数

共包括重构损失、分类损失、特征重构损失和梯度相关损失。

(1)Reconstruction Losses

(2)Classification and Feature Reconstruction Loss

(3)Gradient-related Loss

替换为:

(4)Total Loss

三、分析

1、Analysis of Semantic Trimap

语义得分图提供了急需的先验知识,用于指示未知像素的潜在类别,从而指导网络生成更准确的预测。

2、Analysis of Multi-Class Discriminator

论文提出的多类鉴别器,通过考虑 alpha mattes 的类特定统计信息,使模型学习不同类的分布。如果预测的matting是令人满意的,那么这种预测应该具有与 groundtruth 相似的分布。多类鉴别器提供的分类和特征重建损失强制模型保留不同模式的统计数据,从而提高性能。

3、Analysis of Content-Sensitive Weights

在训练阶段,论文中引入了具有可学习权重的梯度约束来规范不同类别的模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值