论文阅读：Semantic Human Matting

最新推荐文章于 2024-04-17 09:31:22 发布

xiongxyowo

最新推荐文章于 2024-04-17 09:31:22 发布

阅读量933

点赞数

分类专栏：阅读

本文链接：https://blog.csdn.net/qq_40714949/article/details/114933786

版权

阅读专栏收录该内容

39 篇文章 4 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/1809.01354.pdf

内容简介

这个网络是用来做人像抠图的(Matting)，只能抠人不能抠别的
制作了一个很大的高质量人像抠图数据集(52511train+1400test)，据论文介绍花了1200小时；不过好像还没开源
属于自动抠图，不需要手动输入额外trimap

网络结构

在这里插入图片描述

简单来说就是把两个网络装起来做个pipeline，其中：

T-Net： 负责进行trimap生成。虽然本文并不需要手工去输入trimap，但是对于matting这个任务来说，trimap还是需要的。
因此这里采用了自动生成的trimap。trimap由三部分组成，前景区域，背景区域，未知区域，那么其实就相当于一个语义分割问题。由于这里前景类别是固定的(人)，那么分割出来的人就可以作为前景，在此基础上进行dirate就可以得到未知区域，剩下的就是背景了。
M-Net： 负责生成alpha matte。那这个用的抠图问题中经典的Encoder-Decoder结构了，没有什么特别的。输入是原图和T-Net输出叠加得到的六通道特征图，Encoder用的是VGG16，修改了输入为六通道，然后把conv6、deconv6去掉了(参数过多容易造成过拟合)
Fusion： 其实就是这么个公式：
$\alpha_{p}=F_{s}+U_{s} \alpha_{r}$
其中， $\alpha_{p}$ 是Fusion模块的输出，即网络最终得到的alpha matte； $F_{s}$ 为前景的概率图，表示每个像素属于前景的概率； $U_{s}$ 为未知区域的概率图，表示每个像素属于未知区域的概率； $\alpha_{r}$ 是M-Net输出的粗alpha matte。
这个公式的大概意思是，如果 $U_{s}$ 接近0，表示这块基本是确定区域，那么我们可以直接用trimap级别的信息(因为这个时候 $\alpha$ 不是0就是1，再跑个网络反而可能不准)；而如果 $U_{s}$ 接近1，表示这块不确定，那么我们主要利用的就是matting网络下的结果。

Loss

用了两种loss：

alpha-prediction loss： 在Deep Image Matting一文中被提出。其实就是预测alpha matte和gt alpha matte之间的逐像素差绝对值。不过因为绝对值本身是一次的不可导，因此这里先平方，加上一个小项 $\epsilon$ ，再开根号来进行近似
$\mathcal{L}_{\alpha}^{i}=\sqrt{\left(\alpha_{p}^{i}-\alpha_{g}^{i}\right)^{2}+\epsilon^{2}}, \quad \alpha_{p}^{i}, \alpha_{g}^{i} \in[0,1]$
其中 $\alpha_{p}^{i}$ 为预测 $\alpha$ 值， $\alpha_{g}^{i}$ 为真实 $\alpha$ 值， $\epsilon={10^{ - 6}}$ 。
classification loss：
$\left\|F_{s}+U_{s} \alpha_{r}-\alpha_{g}\right\|$
其实变形下就是
$\left\| \alpha_{p}-\alpha_{g}\right\|$
没太懂这个损失的意义，但是从消融研究看确实是有用的。