BackgroundV2(2020,background)
- 网络结构:网络是两部分组成,一个粗分割base网络,一个精细分割refiner网络,其中预测的时alpha与一个前景残差,Fr = F-I组成,研究人员说这对于网络有好处
- base网络:全卷积的encoder-decoder网络,类似于deeplabv3与deeplabv3+结构,主干网是resnet50,或者其他mobilenetv2,最后添加ASPP模块,其中有多种尺度的膨胀卷积核,解码encoder网络使用双线性差值,与主干网的跳层进行连接,其他为正常卷积与bn、relu操作,解码输出有四类,一个alpha matte,一个前景残差,一个误差图,一个32通道的隐藏特征图,
- refiner网络:输入是patch,将误差图分块,计算每块的误差进行排序,取前几个误差较大小块在原始高分辨率图的一半获取,与预测的alpha matte上获取alpa,同时将隐藏特征图输入,进行过几个卷积采样之后在将原始图像的对应获取来增强细节指导,最终将输出的patch结果 alpha与前景残差存入base预测的对应位置,
- 损失函数:
包括一个alpha L1损失与一个梯度损失,还有一个前景的L1损失。 base网络的时候误差损失,首先定义误差图的gt为alpha-预测的alpha。最终误差图E使用的是L2损失,
因此base的损失函数为
refine的损失函数为
- 训练方式:
数据库:自己整理了视频数据库videoMatte240k与photoMatte13K数据库。
训练:先单独训练base,之后在添加数据base与refine一同训练保证轮棒,之后在添加数据训练保证高分辨率鲁班,之后在添加数据一同训练保证实际鲁棒。 - 实验结果:
实验结果表明,该方法比BMG的好,但是跟使用trimap的方法接近。但是FBA需要有一个较为精确的trimap才能有一个好的效果,粗糙的不准确的trimap效果也会降低。