论文阅读——MODNet: Real-Time Trimap-Free Portrait Matting via Objective Decomposition

最新推荐文章于 2024-03-22 09:35:05 发布

Kiko1996

最新推荐文章于 2024-03-22 09:35:05 发布

阅读量882

点赞数

文章标签：深度学习人工智能计算机视觉神经网络

本文链接：https://blog.csdn.net/Kiko1996/article/details/126744185

版权

MODNet是一个轻量级网络，专为实时人物抠图设计，仅需单张图片输入，无需额外辅助信息。它通过同时优化多个子目标实现高效抠图，包括语义估计、细节预测和语义细节融合三个分支。e-ASPP模块增强了语义估计，而自监督的子目标一致策略确保了结果质量。实验表明，MODNet在速度和效果上都表现出色，适用于静态图片和视频处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、摘要

论文提出一个轻量级的抠图目标分解网络（MODNet）用于人物的实时抠图，且输入为单一图片，不需要提供诸如trimap的其他输入。主要改进在于通过显示约束同时优化一系列子目标。另外本论文有两个改进技术。一是融合了多尺度特征的语义估计e-ASPP。二是自监督的子目标一致策略。实验证明，速度够快，且该方法可运用于图片和视频。

二、方法

MODNet共分为几个分支。一是semantic estimation low-resolution branch S（语义估计低分辨率分支S）。二是detail prediction high-resolution branch D（细节预测高分辨率分支D）。三是semantic-detail fusion branch F（语义细节融合分支F）。这三个分支是同时进行优化，同时得到最终目标。

1、Semantic Estimation：用于人像定位。

采用encoder用于提取高维语义特征。主要有两个好处，一是参数少更高效，二是有利于后续分支的进行。论文中说到可采用随意的cnn作为backbone，为了速度更快采用了mobileNetV2，然后在为了会的单通道的Sp，将输出喂到sigmoid函数，并且采用

其中αg为gtrund truth matte，G表示高斯模糊后进行16倍的下采样。

在这部分还用到了eASPP。原因是MobileNetV2的预测结果不理想，ASPP虽然有效但是参数过多，eASPP示意图如下所示：

2、Detail Prediction

输入为I、S(I)和S的低维特征。论文采用如下三个方法来简化D的计算。一是D比S拥有更少的卷积层，实际数量为12个卷积层。二是D中的通道数更少，最大通道数为64。三是特征图的分辨率在第一层减少到原图的四分之一，并在最后两层恢复到原来的数量。而在操作过程中下采样的操作可以忽略，因为分支D采用了一个跳跃连接。