Deep Image Matting阅读笔记

论文中心思想

以图像+trimap(图像精确蒙版的随机扩大)作为输入,通过encoder-decoder网络来预测精确的蒙版,通过增强网络来提升效果

代码复现的研究:http://blog.leanote.com/post/calebge/Deep-Image-Matting%E5%A4%8D%E7%8E%B0%E8%BF%87%E7%A8%8B%E6%80%BB%E7%BB%93

代码复现地址:https://github.com/Joker316701882/Deep-Image-Matting

概述

文章提出的算法主要分为两个部分:第一部分通过深度卷积的encoder-decoder网络,输入图像和图片对应的一个trimap,来预测图像的alpha matte(蒙板),第二部分用小型卷积网络对第一部分得到的蒙板进行微调,获得边缘更尖锐的结果。同时,文章提供了一个由49300训练图像和1000检测图像组成的抠图数据集(合成数据集)。

1.介绍

抠图问题的核心是精确地将图像或视频中的前景估计出来,对图像编辑,影片剪辑等都有很深的意义。

图像修复的难点在于,图像修复受7个约束条件,但是仅3个已知

 说明:I代表图像RGB像素,为已知的三个约束;F为前景像素,为三个未知约束;B为背景像素,为三个未知约束;α为蒙版估计值,为一个未知约束;

一是当前方法将抠图方程设计为两个颜色的线性组合,即将抠图看做一个染色问题,这种方法将颜色看做是一个可区分的特征。但是当前景和背景的颜色空间分布重叠时,这种方法的效果就不是很好了。使用深度学习不首要依赖色彩信息,它会学习图像的自然结构,并将其反映到alpha matte。

二是当前基于抠图的数据集太小,alphamatting.com数据集只有27张训练图片和8张测试图片,训练出来的模型泛化能力较差。针对该问题,作者将前景抠出来,并放入到不同的背景下,从而构建一个大规模抠图数据集。
3.数据集

通过将简单的背景图通过Photoshop人工制作蒙版,和纯前景色图像,然后随机从MS COCO和Pascal VOC选取N张图像作为背景与前景色图像进行组合,总共493个前景图像(训练集)、50个前景(测试集),分别组合100个背景与20个背景构成49300和1000个图像。

图像对应trimap的制作:通过真实蒙版来随机扩大

该数据集的优势:
1)有更多独立的前景物体,并且包含更多的matting情况:毛发、半透明等情况;
2)前景背景颜色相近、背景纹理复杂的数据更多,使得更具有挑战性。

4. 具体方法

主要分为两阶段:第一阶段为深度卷积的encoder-decoder network,输入为图像+trimap,输出为预测蒙板产生的loss和联合的loss。第二阶段为小型卷积网络微调获得准确蒙板和尖锐边缘。

4.1Matting encoder-decoder stage:

网络结构

通过将图像与蒙版组合为一个4通道图像作为输入,整个网络分为编码(下采样)——解码(上采样)两个部分,encoder网络采用14个卷积层+5个max-pooling层,decoder网络为了加速进行了一定地缩小,只有6个卷积层和5个反池化层。

损失函数

 设计了两个loss函数,一个称为alpha-prediction loss,另一个是compositional loss

      alpha-prediction loss 定义ground truth的蒙板值(alpha value)和预测的蒙板值在每一个像素位置的绝对差异。又由于绝对差不可微分,采用相对近似值模拟,如下:

这里,是预测层对于像素位置i的预测值,即为ground truth值。为10^(-6)。

       compositional loss 是ground truth和预测的RGB之间的loss,c定义RGB通道,类似于前面的alpha-prediction loss,则compositional loss 计算公式为:

 最终的损失函数为:

训练策略

首先.从原图中随机crop 320*320,裁剪为480*480和640*640再resize为320*320,翻转,训练后打乱顺序再训练,修改前景与背景组合时的相对位置;

4.2 Matting refinement stage:

由于前面网络得到的结果有时候过于平滑,因此添加这个阶段,输入是由图像与前一网络产生的预测结果组成的4通道图像,

输出为对应的准确蒙版,网络是全卷积网络,包含4个卷积层,前3个卷积层都跟着一个ReLU层为了使得尖锐的边缘即准确轮廓产生,该阶段不再进行降采样过程。在4通道输入数据进入网络前,还采用了一个“ skip-model ”使得其值变成0-1

训练策略

先训练编解码网络,待其收敛后用于更新refine网络,第二个网络只使用alpha-prediction loss。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值