《Deep Image Matting》论文笔记

参考代码:Deep Matting

1. 概述

导读:这篇文章是在深度学习基础上进行抠图,之前也有基于此的工作,但是那些方法存在前景背景区域颜色接近或是有复杂纹理的时候表现欠佳。文章对于这些方法效果差的原因进行分析并归纳为:网络中只使用了低层次的细节信息,而忽略或是缺少高层次的上下文信息。文章针对上面提到的两个问题提出了一种新的抠图方法,该方法有两个部分组成:
1)由CNN网络构建的编解码结构,使用三色图和原图作为输入,输出预测出来的alpha图;
2)在前一个部分输出的基础上使用一个小的卷积网络去优化预测出来的alpha图,从而使得网络的输出更加精准,边界清晰;

这篇文章指出现有(论文的年代2017年)的一些方法存在着如下的问题:

  • 1)依赖于颜色等物体信息,但是这样的方式在前景背景不好分的时候matting就会存在问题,见图1第一排第二张图。文章使用编解码结构网络和refine网络去预测alpha;
  • 2)现有可供使用的训练数据集相当有限。文章使用数据合成策略增广数据集;

图【1】

2. 方法设计

2.1 网络结构

文章的方法是典型的编解码结构网络,在最后阶段还增加了一个refine模块,其网络结构见下图所示:
在这里插入图片描述

2.2 数据增广策略

由于现今可供使用的matting数据集较少,但是网络训练是需要较大的数据集的,对此文章使用数据合成的思路去进行数据增广。文章使用alpha图与原图将对应的前景区域贴到其它图片上,从而得到了不同背景的合成数据,见下图所示:
在这里插入图片描述

2.3 编解码网络部分

文章的方法第一个阶段是一个U型的编解码结构,编码器由14个卷积和5个池化层构成,解码器结构相对简单,由6个卷积和5个unpooling层构成,使用Xavier 随机初始化。由于网络的输入往外增加了一个三色图的通道,这里对增加的通道使用0值初始化。

对于网络的损失函数是由两部分组成的:alpha的预测损失和RGB合成图的预测损失

alpha图预测损失:
这里对于alpha图的预测损失采用的是L1范数,但是由于L1范数在0点不可导的问题,文章对其进行改进:
L α i = ( α p i − α g i ) 2 + ϵ 2 , α p i , α g i ∈ [ 0 , 1 ] L_{\alpha}^i=\sqrt{(\alpha_p^i-\alpha_g^i)^2+\epsilon^2},\alpha_p^i,\alpha_g^i\in [0,1] Lαi=(αpiαgi)2+ϵ2 ,

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值