一文尽享 Matting（抠图）主流开源模型、数据集

virtaitech

于 2024-10-10 10:21:58 发布

阅读量2.6k

点赞数 10

文章标签：人工智能 AI GPU 算力算法

本文链接：https://blog.csdn.net/m0_49711991/article/details/142814580

版权

嘿，小伙伴们，国庆长假近在眼前，是不是心里那个小激动已经按捺不住了，就像小时候数着日子等过年？但一想到抢票大战、酒店一房难求，还有那些网红景点的“人海战术”现场，出游的热情瞬间被浇了半盆冷水。

不过，聪明的网友已经开始解锁“电子旅游”新姿势！何谓“电子旅游”，简单来说，就是不用真动腿，只需动动手指，利用神奇的抠图技术，嗖嗖几下，就能把自己 P 进世界各大名胜古迹，从长城到埃菲尔铁塔，从丽江古城到夏威夷海滩，躺着就能环游地球，朋友圈里晒照。

所谓 Matting（抠图）是一种图像处理技术，主要用于从复杂背景中提取前景对象，通常应用于图像合成、特效制作和视频编辑等领域。“电子旅游”中的人像抠图也是其中一种。

本文精心汇总了 Matting（抠图）技术的前沿开源模型、主流算法以及数据集资源，旨在加速开发人员的研究进程，轻松获取所需算法与数据。

Deep Image Matting

针对此前的图像抠图算法，在图像的前景和背景颜色相似或纹理复杂时表现不佳可能存在的问题：only use low-level features 和 lack high-level context。

提出以下创新：

一个深度卷积 encoder-decorder 网络，它将一个图像补丁和相应的 trimap 作为输入，预测图像的 alpha matte；
一个小型的卷积网络，用更准确的阿尔法值和更清晰的边缘来完善第一个网络的阿尔法预测。

此外，还创建了一个大规模的图像抠图数据集，包括 49,300 张训练图像和 1,000 张测试图像。

参考论文：Deep Image Matting
论文地址：https://arxiv.org/pdf/1703.03872
开源地址：https://sites.google.com/view/deepimagematting(数据需要通过邮箱[bprice@adobe.com]联系获得)

Background Matting

Background Matting 是华盛顿大学提出的一种背景 matting 技术，该技术可以在自然环境中随意捕获高质量的前景和 alpha matte。

研究创新如下：

首个使用随意捕获背景的无三元图(trimap-free)自动抠图算法。
一种新的抠图架构(上下文切换模块)，可在输入提示中进行选择。
一种自监督对抗训练方法，以改善真实图像上的抠图效果。
在多种输入(手持设备、固定摄像头、室内、室外)上与多种竞争方法进行实验比较，展示了该方法的相对成功。
参考论文：Background Matting: The World is Your Green Screen (CVPR 2020)
论文地址：https://arxiv.org/abs/2004.00626
开源地址：https://github.com/senguptaumd/Background-Matting

BackgroundMattingV2

BackgroundMattingV2 是 Background Matting 升级版，由华盛顿大学提出的一种实时、高分辨率的背景替换技术，它可以在 4K 30fps 和 HD 60fps 下运行。

另外，还提供了两个大型视频和图像抠图数据集：VideoMatte240K 和 PhotoMatte13K/85。

VideoMatte240K 共收集 484 个高分辨率的绿幕视频，其中 384 个视频为 4K 分辨率，100 个为 HD 分辨率，并通过 Adobe After Effects 生成了总共 240,709 帧单独的 alpha 遮罩和前景。

PhotoMatte13K/85 包含 13665 张用摄影棚质量的灯光和摄像机在绿屏前拍摄的图像集合，以及通过色度抠像(chromakey)算法提取的抠图，并进行手动调整与错误修复。另外收集一套 85 张质量类似的抠图作为测试集。

参考论文：Real-Time High-Resolution Background Matting (CVPR 2021)
论文地址：https://arxiv.org/abs/2012.07810
论文介绍：https://blog.csdn.net/qq_45929156/article/details/122632480
开源地址：https://github.com/PeterL1n/BackgroundMattingV2(包含数据下载)

RVM

RVM(Robust Video Matting) 是专为稳定人物视频抠像的设计。不同于现有神经网络将每一帧作为单独图片处理，RVM 使用循环神经网络，在处理视频流时有时间记忆。RVM 可在任意视频上做实时高清抠像。在 Nvidia GTX 1080Ti 上实现 4K 76FPS 和 HD 104FPS。

参考论文：Robust High-Resolution Video Matting with Temporal Guidance (WACV 2022)
论文地址：https://arxiv.org/abs/2108.11515
开源地址：https://github.com/PeterL1n/RobustVideoMatting

PaddleSeg

PaddleSeg 是基于飞桨 PaddlePaddle 开发的端到端图像分割开发套件，涵盖了高精度和轻量级等不同方向的大量高质量分割模型。通过模块化的设计，提供了配置化驱动和 API 调用两种应用方式，帮助开发者更便捷地完成从训练到部署的全流程图像分割应用。

提供语义分割、交互式分割、全景分割、Matting 四大图像分割能力，广泛应用在自动驾驶、医疗、质检、巡检、娱乐等场景。

开源地址：https://github.com/PaddlePaddle/PaddleSeg/blob/release/2.5/Matting/README_CN.md

MODNet

MODNet 是一个仅需 RGB 图片输入的实时人像抠图模型，包含两项创新技术：用于高效语义特征融合的 e-ASPP 模块，以及自监督的 SOC 策略，以使 MODNet 能够泛化到新的数据领域。

另外，还提出一个新的基准测试——PPM，具有以下特点：

精细标注：所有图像都经过仔细标注和审核，确保高质量标签。
自然背景：所有图像均使用原始背景，没有进行背景替换。
丰富多样性：图像覆盖全身或半身，且包含各种不同的姿势。
高分辨率：图像分辨率介于1080p到4K之间，保证了高质量的视觉效果。

参考论文：MODNet: Trimap-Free Portrait Matting in Real Time (AAAI 2022)
论文地址：https://arxiv.org/pdf/2011.11961
开源地址：https://github.com/ZHKKKe/MODNet
下载地址：https://github.com/ZHKKKe/PPM

MAGICK

MAGICK 数据集，包含 150,000 个生成的物体及其准确的 alpha matte。涵盖了各种物体，并且具有高质量的 matte，包含头发、毛发、细小部分和透明度等细节。该数据集在训练 RGBA 生成、alpha-to-rgb 或自然图像抠图网络方面都有很大帮助。

参考论文：MAGICK: A Large-scale Captioned Dataset from Matting Generated Images using Chroma Keying (CVPR 2024)
论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf
下载地址：https://ryanndagreat.github.io/MAGICK/

matting_human_datasets

该数据集是由国内公司高质量标注的，包含 34427 张图像和对应的 matting 结果图。

下载地址：https://github.com/aisegmentcn/matting_human_datasets

RealWorldPortrait-636

RealWorldPortrait-636 数据集由 636 张精确标注的人像图片组成。

参考论文：Mask Guided Matting via Progressive Refinement Network (CVPR 2021)
论文地址：https://arxiv.org/abs/2012.06722
下载地址：https://github.com/yucornetto/MGMatting

Distinctions-646

Distinction-646 数据集由 646 张前景图像及其手动标注的 alpha matte 组成。

参考论文：Attention-Guided Hierarchical Structure Aggregation for Image Matting (CVPR2020)
论文地址：https://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf
下载地址：https://github.com/yuhaoliu7456/CVPR2020-HAttMatting

趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务，也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力·连接人：

📍通过连接全球算力，趋动云可以为用户提供便宜、好用的 AI 算力。
📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区，趋动云可以帮助AI开发者接入丰富的生态，快速实现最佳实践。