《Background Matting》论文解读

最新推荐文章于 2024-03-20 09:51:22 发布

zhou pure

最新推荐文章于 2024-03-20 09:51:22 发布

阅读量920

点赞数 1

分类专栏： Alpha Matting

本文链接：https://blog.csdn.net/pure_zhou/article/details/109587451

版权

Alpha Matting 专栏收录该内容

4 篇文章 2 订阅

订阅专栏

这里写目录标题

前言
详细解读
总结

前言

在这里插入图片描述

想象一下，只要用一部手持智能手机，就可以在日常环境中拍摄照片或视频，轻松地创建一个人的每个像素的前景图。这便是这篇论文的最终目的。这篇论文我个人认为在图像matting上有很大的改进，主要是他不用我们输入trimap图了（手动描边真的很辛苦，自动描边又不准），但这是有代价的，就是需要额外输入一张背景图。整篇论文我认为有不少的创新点，比如使用的CS块和第二阶段的半监督学习提高真实性。

详细解读

整体结构
在这里插入图片描述
整体结构分为两个部分，一个是生成模型，一个是判别模型。两部分的输入都是原图片I，背景B’，Soft Segmentation S，Motion cues M，这里的I和B‘即为普通输入，S为I进行人物分割，然后进行腐蚀膨胀进行高斯模糊后得到的粗分割图像就是我们所谓的trimap图，M是预测视频流时多个帧的黑白图片的叠加。对于前者，它使用了CS Block，这充分利用了上下文信息，避免网络过度学习图片的颜色信息，这是这篇论文的一大特点，并且它的预测输出不仅有alpha图，还有前景图，这是以前的算法没有做到的。后者判别模型是为了解决图片之间的domain gap，这是利用adobe数据生成的网络模型对real模型进行监督训练，后面加一个鉴别器，所以这是一个半监督学习模型。

生成模型
这部分是一个一个‘编码器-解码器’的结构，其中编码器又叫做Context Switching Block，它是由Encoder，Selector以及Combinator组成，后面加上ResBLKs模块和decoder模块。
在Encoder中，四个输入图像将会被编码成不同的Feature Map，Selector依次把输入的先验知识和输入的原图的Feature Map拼接成一个Feature Map；Combinator将三组Selector得到的结果和输入图像的编码结果拼接成一个Feature Map。这样做的目的是想要充分利用上下文信息，从而使训练结果不只是依赖颜色信息。
整体的feature Maps变化如下：
在这里插入图片描述
图中CN(kS)表示步长为1的N个S * S滤波器，后面跟着批处理归一化和ReLU。C*N(kS)表示步长为2的N个S * S滤波器，然后进行批处理归一化和ReLU。另外需要注意的是中间有一些拼接过程，所以selector的输入是512 * 128 * 128，combinator的输入是448 * 128 * 128.
GAN模型
如果把失败的抠图效果合成到背景图中，这种生成的图像明显和真实拍摄的图像有很大的差距。基于这个思想，作者提出了使用对抗网络来进行网络参数的微调。也就是说，使用判别器来判断一个图片是合成的图像还是真实拍摄的图像，如果合成的图像足以骗过判别器，这就足以表明判别器优化到了一个比较好的参数值.
这部分是用了对抗生成的方法，构造一个Discriminator来判断这张合成的图片是真是假。也就是输入与上述生成网络相同。这里的baseline用的是 LS-GAN，也有两个网络，一个是genertor，一个是discriminator.Generator即为生成Greal的网络，借由GAdobe也就是上面的生成网络来进行teacher-student 学习。

总结

关于Loss函数部分我没有写，第一部分用了共享残差和前景预测和alpha预测，第二部分用了判别器的对抗训练损失和预测损失（预测的合成图像和基于adobe模型的伪grounf-truth之间的差距）。
这篇论文最大的优势是不需要人工交互，并且抠图效果很好，但是对于输入有一定的要求，比如你的背景图有一定的要求，和有前景图之间的光线等不能有较大差距。

zhou pure

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《Background Matting》论文解读

这里写目录标题前言详细解读总结前言想象一下，只要用一部手持智能手机，就可以在日常环境中拍摄照片或视频，轻松地创建一个人的每个像素的前景图。这便是这篇论文的最终目的。这篇论文我个人认为在图像matting上有很大的改进，主要是他不用我们输入trimap图了（手动描边真的很辛苦，自动描边又不准），但这是有代价的，就是需要额外输入一张背景图。整篇论文我认为有不少的创新点，比如使用的CS块和第二阶段的半监督学习提高真实性。详细解读整体结构整体结构分为两个部分，一个是生成模型，一个是判别模型。两部分的输
复制链接

扫一扫

专栏目录