《论文阅读》Background Matting: The World is Your Green Screen

最新推荐文章于 2021-11-25 22:56:10 发布

未知丶丶

最新推荐文章于 2021-11-25 22:56:10 发布

阅读量872

点赞数 1

分类专栏：计算机视觉深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_43310834/article/details/108324348

版权

深度学习同时被 2 个专栏收录

107 篇文章 13 订阅

订阅专栏

计算机视觉

91 篇文章 9 订阅

订阅专栏

留个笔记自用

Background Matting: The World is Your Green Screen

做什么

在这里插入图片描述
Image Matting图像抠图技术，简单来说就是给出一张图，将图中某一部分单独抠出，类似于电影特效中的绿幕，人物在绿幕前能单独提取出人物。传统的抠图方法如上，从左到右为原图，trimap，result，第一个原图，第二个trimap是三色图，用三个数值标识了三类区域：肯定是背景、肯定是前景和不确定，即图中黑、白、灰。第三个就是网络给出的抠图结果。

做了什么

相比于传统的原图和trimap（trimap的构造比较艰难），这篇采用的是原图（人+景）和背景图（只有景），就是要求用户照完相后再拍摄一张无人的背景图，当然要假设移动很小，这样就变成了
在这里插入图片描述

怎么做

在这里插入图片描述
首先输入的处理上用到了膨胀和腐蚀
这里的膨胀就是求局部最大值的操作。从数学角度来说，就是将图像与核进行卷积，计算核B覆盖区域的像素点的最大值，并把这个最大值赋值给参考点指定的元素。这样就会使图像中的高亮区域逐渐增长。腐蚀和膨胀是相反的操作，腐蚀是求局部最小值的操作。腐蚀操作会使图像中的高亮区逐渐减小。
例图
在这里插入图片描述
整体结构分为两个部分，一个是Generator部分，一个是Discriminator部分
首先是上部生成部分，输入为原图片I，背景B’，Soft Segmentation S，Motion cues M，这里的I和B‘即为普通输入，S为I进行人物分割，然后进行erode（腐蚀膨胀）几步，然后进行高斯模糊后得到的粗分割图像，M是预测视频流时多个帧的黑白图片的叠加。
在这里插入图片描述

这里的Prior Encoder和Image Encoder就是普通的编码器（由1×1卷积，BN等组成）提取特征，原代码中的输出大小均设置为256xW/4xH/4，再将四个特征经过combinator块结合，就是简单的concatenate。
在这里插入图片描述
之后concatenate得到的结果特征传入ResBLKs，这里采用的是训练好的resnet的取出的一些block，Decoder就是一些普通的upsample层，经过这两步后，得到两个不同的图，一张是foreground F和Alpha matte α，就是真正所需求的抠图结果。
之后再将得到的F和α和原来的背景图B结合生成一张新的图片（希望这张图和原图I相同）这里采用了公式非常简单在这里插入图片描述
这部分的LOSS为

然后是第二部分Discriminator
这部分是用了对抗生成的方法，构造一个Discriminator来判断这张合成的图片是真是假。也就是输入与上述生成网络相同。这里的baseline用的是 LS-GAN，也有两个网络，一个是genertor，一个是discriminator
Generator即为生成G_real的网络，这里采用的baseline是LS-GAN，借由G_Adobe也就是上面的生成网络来进行teacher-student learning，其实就是蒸馏。
这里的LOSS为
在这里插入图片描述
之后对Discriminator也进行训练

总结

1.文章主要贡献点就是删掉了trimap，换成了容易得到的去人背景和简单处理的soft segmentation
2.Teacher-Student似乎是现在很多人都在用的。。轻量级才是正道。

未知丶丶

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
《论文阅读》Background Matting: The World is Your Green Screen

留个笔记自用Background Matting: The World is Your Green Screen做什么Image Matting图像抠图技术，简单来说就是给出一张图，将图中某一部分单独抠出，类似于电影特效中的绿幕，人物在绿幕前能单独提取出人物。传统的抠图方法如上，从左到右为原图，trimap，result，第一个原图，第二个trimap是三色图，用三个数值标识了三类区域：肯定是背景、肯定是前景和不确定，即图中黑、白、灰。第三个就是网络给出的抠图结果。做了什么相比于传统的原图和tr
复制链接

扫一扫

专栏目录