论文阅读——Deep Image Matting

最新推荐文章于 2024-04-14 09:57:39 发布

Kiko1996

最新推荐文章于 2024-04-14 09:57:39 发布

阅读量1k

点赞数

文章标签：深度学习计算机视觉神经网络

本文链接：https://blog.csdn.net/Kiko1996/article/details/126743940

版权

一、摘要

强调image matting（抠图）的现实意义。已有的算法在前景和背景颜色相似或者拥有复杂的纹理时表现较差，主要原因有两个，一个是只运用到低维特征，另一个是缺少高维语境。所以这篇论文提出了深度模型算法可以解决上述两个问题。模型主要包括两个部分。第一部分是一个深度卷积编码-解码网络。这部分的输入包括图片和图片对应的二分图（trimap），输出是预测的图片对应的alpha matte。第二部分是一个小的卷积神经网络，用于微调第一部分获取的预测alpha图，并获得更锐利的边缘。另外，这篇论文的贡献在于创造了一个拥有49300张训练图片和1000张测试图片的数据集。

二、论文方法

论文提出的网络由两个stage构成。第一步是一个深度卷积的encoder-decoder，其输入是原始图片和对应的trimap。并且这一阶段的损失计算包括alpha估计的误差和组合误差。第二步是一个完全卷积网络，用于调整第一步获得的alpha估计，获得更加精确的alpha值和更确切的边缘。具体描述如下：

1、 Matting encoder-decoder stage

网络结构：原始图像和trimap concate为4通道的输入，encoder包括14层的卷积层和5层的最大池化层。而decoder采用了更小的结构减少参数，包括6个卷积层和5个unpooling层（unpooling层即为最大池化层的逆过程，主要是补零的操作）

损失函数：包括alpha预测误差和组合误差。alpha误差比较直接，是预测值和准确值差的平方再开根号，但是担心其不可微性，还加了个扰动项。而组合误差则是RGB各通道的差值。

alpha的估计损失：

其对应的倒数为：

compositional组合损失：

总的loss为前面两项的组合项：

论文中参数 $\omega_l$ 取0.5，使得两部分loss等比例进行加权。但是也提到了在trimap的未知区域，设置为1，使得网络更专注于重要区域。

2、Matting refinement stage

虽然上一步获得的alpha估计已经明显好于其他现存的matting算法，主要是得益于encoder-decoder的结构。但是为了获得更精细化的结果，这一步主要是调整alpha估计并获得更清晰的边缘。

网络结构：输入为第一阶段的alpha估计和原图，concat在一起获得一个四通道的输入。输出是对应的alpha matte。这一阶段的网络是完全的卷积结构，包括4个卷积层，前三个卷积层每个之后都跟随了一个非线性的relu层。在网络中还加了一个skip的操作，将输入数据的第四通道先缩放到0-1，然后加入到网络的输出部分。

在实现过程中，论文先更新encoder-decoder部分直到收敛，然后再更新第二阶段的网络，损失约束只有alpha估计。直到第二阶段网络也收敛了，论文会将两个阶段放在一起微调，使用的是adam算法，学习率为10的-5次方。