带你「周游世界」的 MODNet 算法

最新推荐文章于 2024-05-24 22:46:17 发布

AI科技大本营

最新推荐文章于 2024-05-24 22:46:17 发布

阅读量2.2k

点赞数 1

文章标签：算法计算机视觉机器学习深度学习人工智能

来源 | Jack Cui

责编 | 晋兆雨

头图 | CSDN下载自视觉中国

最近又有一个算法火了，不知道你们看到没？直接看效果！

效果这么稳定的人像 Image Matting 算法真的不多，并且还能进行实时处理！

处理视频、图像，不在话下。人在家中坐，录段视频，你就可以把自己放到世界各地的美景中。

这类的抠图 AI 算法，已经出现过不少，但这一款确实让人觉得很惊艳。

打工人的周游世界梦，还能靠 AI 算法实现，泪目！

MODNet

当前对人像 Matting 的研究主要围绕这两点：

不使用 trimap 情况下提高精度
实时与准确性兼顾

MODNet 都做到了，作者充分利用 Ground Truth 的信息，将模型学习分为三个部分：语义估计、细节预测和语义细节融合。

语义估计（Semantic Estimation）：采用 MobileNetV2 架构，通过编码器（即 MODNet 的低分辨率分支）来提取高层语义。对 high-level 的特征结果进行监督学习，标签使用的是下采样及高斯模糊后的GT，损失函数用的 L2-Loss。

细节预测（Detail Prediction）：结合了输入图像的信息和语义部分的输出特征，通过 encoder-decoder 对人像边缘进行单独地约束学习，用的是交叉熵损失函数。为了减小计算量，encoder-decoder 结构较为 shallow ，同时处理的是原图下采样后的尺度。

语义细节融合（Semantic-Detail Fusion）：把语义输出和细节输出结果拼起来后得到最终的 alpha 结果，这部分约束用的是 L1-Loss。

另外，基于以上底层框架，该研究还提出了一种自监督学习方法 SOC（Sub-Objectives Consistency）和帧延迟处理方法 OFD（One-Frame Delay )。

其中，SOC 策略可以保证 MODNet 架构在处理未标注数据时，让输出的子目标之间具有一致性；OFD 方法在执行人像抠像视频任务时，可以在平滑视频序列中预测 alpha 遮罩。

自监督学习以适应现实数据（SOC）：

为了让输入图像的 alpha 输出与语义、细节输出相一致，分别用 L2 和 L1 损失进行约束。

其中 Loss 第一项 L2 约束语义部分，第二项 L1 约束边缘细节部分。

另一方面，为了保持原有的细节信息不被丢失，又将自监督的细节输出和原本全监督训练下的细节输出进行 L1 约束。

SOC 这一步不需要标注数据，只是网络模型的自监督学习。

帧延迟处理方法以增强时序稳定性（OFD）：

这部分主要解决视频分割结果的闪烁等问题，提高时序稳定性。后处理操作需要满足一定条件：

即连续三帧中，首尾两帧差异小且中间帧与首尾两帧差异大。

如上图所示，只有红框像素满足处理条件。后处理方式也简单，中间帧结果取首尾两帧平均。

对应到整图的处理效果：

研究人员创建了一个摄影人像基准数据集 PPM-100（Photographic Portrait Matting）。

它包含了 100 幅不同背景的已精细注释的肖像图像。

为了保证样本的多样性，PPM-100 还被定义了几个分类规则，来平衡样本类型。

比如是否包括整个人体；图像背景是否模糊；是否持有其他物体。

PPM-100 中的样图具有丰富的背景和人物姿势，可以被看做一个较为全面的基准。

采用 PPM-100 评估集，看下 MODNet 的效果：

MODNet 在 MSE（均方误差）和 MAD（平均值）上都优于其他无 Trimap 的方法。

虽然它的性能不如采用 Trimap 的 DIM ，但如果将 MODNet 修改为基于 Trimap 的方法。

即以 Trimap 作为输入，它的性能会优于基于 Trimap 的 DIM，这也再次表明显示 MODNet 算法的优越性。

此外，研究人员还进一步证明了 MODNet 在模型大小和执行效率方面的优势。

其中，模型大小通过参数总数来衡量，执行效率采用 NVIDIA GTX1080 Ti GPU 测试。

MODNet 的推理时间为 15.8ms（63fps），比 FDMPA（31fps）快两倍。

总之，MODNet 提出了一个简单、快速稳定的实时人像抠图处理算法。

论文地址：

https://arxiv.org/pdf/2011.11961.pdf

代码

我猜，有些读者，早已迫不及待地跳过算法原理说明，直接来找代码了。

遗憾的是，算法还没有开源。

但是项目仓库已经创建了：

https://github.com/ZHKKKe/MODNet

写稿截图的时候，项目只有一个 README，但是 Star 都快 500 了，足以看出人们对算法效果的认可，以及对算法代码实现的关注。

作者在 issues 中提到，两周后放代码和模型！

心急吃不了热豆腐，好饭不怕晚，咱可以等一等！

絮叨

MODNet 没开源，周末没得玩了？

我早已想到，当然不会让你们空手而归！

navigan 也是一个新鲜出炉的算法。能变脸，改变人的鼻子大小、眼睛大小、眼睛朝向、嘴巴的位置、眉毛高低、甚至让人吸血鬼化。

也可以改变汽车轮子的大小，马的胖瘦。一个挺好玩的 GAN，感兴趣可以周末玩一玩。

项目地址：

https://github.com/yandex-research/navigan

官方权重文件放在了 Dropbox ，下载费事，所以我将代码和权重文件打包放到了百度网盘，有的需要自取（提取码：jack ）：

https://pan.baidu.com/s/1U2SrSguDaPwncMw0TgPXtA

更多精彩推荐

AI科技大本营

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
带你「周游世界」的 MODNet 算法

来源 | Jack Cui责编 |晋兆雨头图 |CSDN下载自视觉中国最近又有一个算法火了，不知道你们看到没？直接看效果！效果这么稳定的人像 Image Matting 算法真的不多...
复制链接

扫一扫

AI科技大本营 CSDN认证博客专家 CSDN认证企业博客

码龄7年

2226: 原创

-: 周排名

130万+: 总排名

1841万+: 访问

: 等级

16万+: 积分

3万+: 粉丝

2万+: 获赞

6531: 评论

4万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习高手成长指南，附攻略与路线图
神奇夜光杯: 评论：干货啊，文章详细阐述了机器学习高手的成长路径和攻略，内容实用且具有指导意义。从基础知识到实践应用，每个阶段都有清晰的路线图和攻略，对于想要深入学习机器学习的人来说非常有帮助。此外，文章还涉及了一些高级技巧和经验分享，让人受益匪浅。感谢作者的用心分享！
机器学习高手成长指南，附攻略与路线图
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【机器学习高手成长指南，附攻略与路线图，博主这篇文章，值得一看】
机器学习高手成长指南，附攻略与路线图
豆小匠: 评论：干货啊，文章详细阐述了机器学习高手的成长路径和攻略，内容实用且具有指导意义。从基础知识到实践应用，每个阶段都有清晰的路线图和攻略，对于想要深入学习机器学习的人来说非常有帮助。此外，文章还涉及了一些高级技巧和经验分享，让人受益匪浅。感谢作者的用心分享！
牛！Python 也能实现图像姿态识别溺水行为了！
codeiceve: 解决了吗佬
实习期间创下 Transformer，他说：当年整个 AI 圈都无法预见我们今天的高度
PerfXCloud大模型: 文章回顾了Transformer模型的诞生，及其对AI领域的影响。作者分享了实习期间创新的激情与挑战，令人感慨。确实，短短几年，Transformer已深刻改变了自然语言处理，推动了AI技术的飞速发展，未来可期。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。