Deep Image Matting阅读笔记

最新推荐文章于 2022-09-07 13:42:06 发布

来路与归途

最新推荐文章于 2022-09-07 13:42:06 发布

阅读量737

点赞数

分类专栏：论文笔记文章标签：深度学习

本文链接：https://blog.csdn.net/qq_42233538/article/details/104571376

版权

论文笔记专栏收录该内容

15 篇文章 0 订阅

订阅专栏

论文中心思想

以图像+trimap（图像精确蒙版的随机扩大）作为输入，通过encoder-decoder网络来预测精确的蒙版，通过增强网络来提升效果

代码复现的研究：http://blog.leanote.com/post/calebge/Deep-Image-Matting%E5%A4%8D%E7%8E%B0%E8%BF%87%E7%A8%8B%E6%80%BB%E7%BB%93

代码复现地址：https://github.com/Joker316701882/Deep-Image-Matting

概述

文章提出的算法主要分为两个部分：第一部分通过深度卷积的encoder-decoder网络，输入图像和图片对应的一个trimap，来预测图像的alpha matte（蒙板），第二部分用小型卷积网络对第一部分得到的蒙板进行微调，获得边缘更尖锐的结果。同时，文章提供了一个由49300训练图像和1000检测图像组成的抠图数据集（合成数据集）。

1.介绍

抠图问题的核心是精确地将图像或视频中的前景估计出来，对图像编辑，影片剪辑等都有很深的意义。

图像修复的难点在于，图像修复受7个约束条件，但是仅3个已知

说明：I代表图像RGB像素，为已知的三个约束；F为前景像素，为三个未知约束；B为背景像素，为三个未知约束；α为蒙版估计值，为一个未知约束；

一是当前方法将抠图方程设计为两个颜色的线性组合，即将抠图看做一个染色问题，这种方法将颜色看做是一个可区分的特征。但是当前景和背景的颜色空间分布重叠时，这种方法的效果就不是很好了。使用深度学习不首要依赖色彩信息，它会学习图像的自然结构，并将其反映到alpha matte。

二是当前基于抠图的数据集太小，alphamatting.com数据集只有27张训练图片和8张测试图片，训练出来的模型泛化能力较差。针对该问题，作者将前景抠出来，并放入到不同的背景下，从而构建一个大规模抠图数据集。
3.数据集

通过将简单的背景图通过Photoshop人工制作蒙版，和纯前景色图像，然后随机从MS COCO和Pascal VOC选取N张图像作为背景与前景色图像进行组合，总共493个前景图像（训练集）、50个前景（测试集），分别组合100个背景与20个背景构成49300和1000个图像。

图像对应trimap的制作：通过真实蒙版来随机扩大

该数据集的优势：
1）有更多独立的前景物体，并且包含更多的matting情况：毛发、半透明等情况；
2）前景背景颜色相近、背景纹理复杂的数据更多，使得更具有挑战性。

4. 具体方法

主要分为两阶段：第一阶段为深度卷积的encoder-decoder network，输入为图像+trimap，输出为预测蒙板产生的loss和联合的loss。第二阶段为小型卷积网络微调获得准确蒙板和尖锐边缘。

4.1Matting encoder-decoder stage：

网络结构

通过将图像与蒙版组合为一个4通道图像作为输入，整个网络分为编码（下采样）——解码（上采样）两个部分，encoder网络采用14个卷积层+5个max-pooling层，decoder网络为了加速进行了一定地缩小，只有6个卷积层和5个反池化层。

损失函数

设计了两个loss函数，一个称为alpha-prediction loss，另一个是compositional loss。

alpha-prediction loss 定义ground truth的蒙板值（alpha value）和预测的蒙板值在每一个像素位置的绝对差异。又由于绝对差不可微分，采用相对近似值模拟，如下：

这里，是预测层对于像素位置i的预测值，即为ground truth值。为10^(-6)。

compositional loss 是ground truth和预测的RGB之间的loss，c定义RGB通道，类似于前面的alpha-prediction loss，则compositional loss 计算公式为：

最终的损失函数为：

训练策略

首先.从原图中随机crop 320*320，裁剪为480*480和640*640再resize为320*320，翻转，训练后打乱顺序再训练，修改前景与背景组合时的相对位置；

4.2 Matting refinement stage：

由于前面网络得到的结果有时候过于平滑，因此添加这个阶段，输入是由图像与前一网络产生的预测结果组成的4通道图像，

输出为对应的准确蒙版，网络是全卷积网络，包含4个卷积层，前3个卷积层都跟着一个ReLU层为了使得尖锐的边缘即准确轮廓产生，该阶段不再进行降采样过程。在4通道输入数据进入网络前，还采用了一个“ skip-model ”使得其值变成0-1

训练策略

先训练编解码网络，待其收敛后用于更新refine网络，第二个网络只使用alpha-prediction loss。

来路与归途

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Deep Image Matting阅读笔记

概述文章提出的算法主要分为两个部分：第一部分通过深度卷积的encoder-decoder网络，输入图像和图片对应的一个trimap，来预测图像的alpha matte（蒙板），第二部分用小型卷积网络对第一部分得到的蒙板进行微调，获得边缘更尖锐的结果。同时，文章提供了一个由49300训练图像和1000检测图像组成的抠图数据集（合成数据集）。1.介绍抠图问题的核心是精确地将图像或视频中的前...
复制链接

扫一扫

专栏目录