#ProcessPainter

只要一张图就能「还原」绘画过程,这篇论文比爆火的Paints-UNDO实现得更早

作者介绍:宋亦仁:新加坡国立大学 ShowLab 博士研究生, 主要研究方向包括图像和视频生成, AI 安全性。 

黄施捷:新加坡国立大学硕士二年级学生,目前在 Tiamat AI 任算法工程师实习生,主要研究方向是视觉生成。目前在寻找 2025 fall 博士入学机会。

最近,lvmin 带来了最新模型 Paints-UNDO。这款 AI 生成工具可以根据图片还原整个绘画过程,整个 AIGC 社区都为之震撼。

51c大模型~合集15_大模型

Paints-UNDO 的演示 demo。

早在 1 个月前,NUS,SJTU,Tiamat 等机构联合已经发布了一篇做类似任务的工作 ProcessPainter: Learn Painting Process from Sequence Data。Paints-UNDO 技术报告还未公布,让我们一起看看 ProcessPainter 是如何实现的吧!

  • 论文标题:ProcessPainter: Learn Painting Process from Sequence Data
  • 论文链接:https://arxiv.org/pdf/2406.06062
  • 代码链接:https://github.com/nicolaus-huang/ProcessPainter

翻开任意一本绘画教学书籍,都能看到按照步骤画画的指导。然而,在生成式 AI 时代,通过去噪过程完成图像生成和人类画家绘画过程完全不同,AI 画画的过程无法直接用于绘画教学。

为了解决这一问题,ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型,首次实现了让扩散模型生成绘画过程。此外,不同题材、画师的绘画过程差异巨大,风格迥异。然而,目前很少有研究将绘画过程作为研究对象。论文作者在预训练的 Motion Model 基础上,通过在特定画师的少量绘画序列上训练 Motion LoRA,学习画师的绘画技法。

51c大模型~合集15_大模型_02

深入解读 ProcessPainter 的核心技术

51c大模型~合集15_大模型_03

1. 时序注意力机制(Temporal Attention)

用时序注意力学习生成绘画过程是 ProcessPainter 的核心创新。绘画序列生成的关键是,整个序列是同一张图从抽象到具体的变化过程, 前后帧在内容和构图上是一致且相关的。为了实现这一目标,作者为 Unet 引入了来自 AnimateDiff 的时序注意模块。该模块位于每一层扩散层之后,通过帧间自注意机制来吸收不同帧的信息,确保整个序列的平滑过渡和连续性。

实验证明,该训练策略可以在帧之间保持一致的绘画效果。绘画过程生成和视频生成任务不同之处在于,绘画过程前后变化更加剧烈,首帧是完成度很低的色块或线稿,而尾帧是完整的画作,这对模型训练带来挑战。为此,论文作者先在大量合成数据集上预训练时序模块,让模型学习各种各种 SBR(Stroke-based rendering) 方法的逐步绘画过程,再用数十个艺术家的绘画过程数据训练 Painting LoRA 模型。

2. 艺术品复制网络(Artwork Replication Network)

绘画实践中,我们更希望知道一幅作品是如何画出来的,以及如何从半成品绘画继续细化以达到期待的成品效果。这就引申出了两个任务:绘画过程重建和补全。鉴于这两个任务都有图像的输入,论文作者提出了艺术品复制网络(Artwork Replication Network)。

这一网络设计能够处理任意帧的图像输入,灵活控制绘画过程的生成。与之前的可控性生成方法类似,论文作者引入一个 ControlNet 的变体,来控制生成结果中的特定帧与参考图一致。

3. 合成数据集与训练策略

由于真实绘画过程数据较难获取,数量不足以支持大规模训练。为此,论文作者构建了用于预训练的合成数据集。 

具体采用了三种合成数据方法:

1. 采用 Learn to Paint 来产生半透明贝赛尔曲线笔触的绘画序列; 

2. 通过自定义笔触,用 Neural style painting 生成油画风格和中国画风格的绘画序列。

3. 上述 SBR(Stroke base painting)方法是从粗到细的拟合一张目标图像, 意味着允许对于已经绘画的部分进行覆盖和修改,然而很多绘画种类,如中国画和雕刻,由于材料的限制,无法大幅度修改已经完成的部分, 绘画过程是分区域完成的。为此,论文作者采用 SAM(segment anything) 和显著性检测方法,从空白画布逐个子区域添加内容,先绘制显著性物体, 然后逐步向背景扩散,从而合成绘画过程视频。

在训练阶段,论文作者首先在合成数据集上预训练了 Motion Model,然后冻结了 Motion Model 的参数并训练了 Artwork Replication Network。在微调绘画 LoRA 模型时,第一步只使用最终帧来微调空间注意力 LoRA,以防止半成品绘画训练集损害模型的生成质量。

此后,论文作者冻结了空间注意力 LoRA 的参数,并使用完整的绘画序列微调时间注意力 LoRA。在推理阶段,当从文本生成绘画序列时,ProcessPainter 不使用艺术品复制网络。在绘画过程重建和补全任务中,ProcessPainter 使用艺术品复制网络接收特定帧的参考输入。为了确保生成的绘画序列中的帧尽可能与输入图像匹配,ProcessPainter 采用了 DDIM 反演技术来获取参考图像的初始噪声,并在 UNet 中替换特定帧的初始噪声。

ProcessPainter 效果展示

在合成数据集上训练的 ProcessPainter base model 可以生成过程上有风格差异的绘画序列。

51c大模型~合集15_大模型_04

通过在少量人类画师的绘画序列上分别训练 Motion Lora,ProcessPainter 可以学习特定画师的绘画过程和风格。

51c大模型~合集15_大模型_05

指定参考图像,ProcessPainter 可以将完成的艺术品逆向解构为绘画步骤,或者从半成品推演出完整的画作。

51c大模型~合集15_大模型_06

这些技术组件的结合,让 ProcessPainter 不仅能够从文本生成绘画过程,还能将参考图转换成绘画序列,或是对未完成的画作进行补全。这无疑为艺术教育提供了新工具,同时也为 AIGC 社区开辟了新赛道。也许不久的将来,Civitai 上会有各种模拟人类画师绘画过程的不同 Lora 出现。

#Gen-3 Alpha

Runway深夜炸场,Gen-3 Alpha图生视频上线,11秒让你脑洞乱飞

网友不吝赞叹:AI 视觉生成又迈出了一大步。

今天凌晨,Runway Gen 3 Alpha 模型的图生视频功能正式上线

用户可以使用任何图片作为视频生成的首帧。上传的图片既可以单独使用,也可以使用文本提示进行额外指导。

目前,Gen 3 Alpha 支持生成的视频最长为 11 秒

作为一项重大更新,Runway 表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。

至于效果如何,大家可以先来欣赏以下官方给到的图生视频示例。

Runway 联合创始人兼 CEO Cristóbal Valenzuela 发推表示,是时候了(脑补:给视频生成领域再来波小小的震撼了)。

他也放上了一些惊艳的图生视频示例。

Runway 脑洞大开、逼真的视频生成效果赢得了评论区一众网友的认可和赞赏,都迫不及待想要尝试一番了。

当然已经有人用上了,X 用户 @NoBanksNearby 在试用后表示,「Runway 在图生视频领域又做到了很好。」

X 用户 @blizaine 测试了一张 Midjourney 生成的小罗伯特・唐尼即将扮演的毁灭博士,使用到的 Prompt 为「当男人走向相机时跟踪拍摄,背景中有神奇的电气爆炸。」

参考链接:

 https://venturebeat.com/ai/you-can-now-turn-still-images-into-ai-videos-with-runway-gen-3-alpha/


#国产版Sora

又一「国产版Sora」全球上线!清华朱军创业团队,视频生成仅需30秒

AI 视频圈正「互扯头花」。

国外的 Luma、Runway,国内的快手可灵、字节即梦、智谱清影…… 你方唱罢我登场。无一例外,它们对标的都是那个传说中的 Sora。

其实,说起 Sora 全球挑战者,生数科技的 Vidu 少不了。

早在三个月前,国内外视频生成领域还一片「沉寂」之时,生数科技突然曝出自家最新视频大模型 Vidu 的宣传视频,凭借其生动逼真、不输 Sora 的效果,惊艳了一众网友。

就在今天,Vidu 正式上线。无需申请,只要有个邮箱,就能上手体验。(Vidu官网链接:www.vidu.studio)

例如,皮卡丘和哆啦 A 梦玩「贴脸杀」:

《暮光之城》男女主秀恩爱:

它甚至还解决了 AI 不会写字的问题:

此外,Vidu 的生成效率也贼拉猛,实现了业界最快的推理速度,仅需 30 秒就能生成一段 4 秒镜头。

接下来,我们就奉上最新的一手评测,看看这款「国产 Sora」的实力究竟如何。

上手实测:镜头语言大胆,画面不会崩坏!

这次,Vidu 亮出了绝活。

不仅延续了今年 4 月份展示的高动态性、高逼真度、高一致性等优势,还新增了动漫风格、文字与特效画面生成、角色一致性等特色能力。

主打一个:别人有的功能,我要有,别人没有的功能,我也要有。

哦莫,它竟然认字识数

现阶段,Vidu 有两大核心功能:文生视频和图生视频。

提供 4s 和 8s 两种时长选择,分辨率最高达 1080P。风格上,提供写实和动画两大选择。

先看看图生视频。

让历史重新鲜活起来,是当下最流行的玩法。这是法国画家伊丽莎白・路易丝・维瑞的名作《画家与女儿像》。

我们输入提示词:画家与女儿像,母女紧紧抱在一起。

生成的高清版本让人眼前一亮,人物动作幅度很大,连眼神都有变化,但效果挺自然。

再试试达芬奇的《抱银鼬的女子》。

提示词:抱银鼬的女子面露微笑。0

长达 8 秒的视频里,女子和宠物动作幅度较大,特别是女子的手部抚摸动作,还有身体、面部变化,但都没有影响画面的自然、流畅。

大幅度、精准的动作有助于更好地表现视频情节和人物情绪。不过,动作幅度一旦变大,画面容易崩坏。因此,一些模型为保证流畅性,会牺牲动幅,而 Vidu 比较好地解决了这一问题。

模拟真实物理世界的运动,还真不错。比如,复刻类似库布里克《2001 太空漫游》的情景!

提示词:长镜头下,缓缓走向消失。7

提示词:长镜头下,漂浮着,慢慢飘向尽头。

除了图生视频,还有文生视频。

提示词:两朵花在黑色背景下缓慢绽放,展示出细腻的花瓣和花蕊。

提示语:这次只她一人,独自坐在樱花深处的秋千架上,穿着粉红的春衫,轻微荡着秋千,幅度很小,像坐摇椅一般,微垂着头,有点百无聊赖的样子,缓缓伸足一点一点踢着地上的青草。那樱花片片飘落在她身上头上,她也不以手去拂,渐渐积得多了,和她衣裙的颜色相融,远远望去仿佛她整个人都是由樱花砌成似的。

Vidu 语义理解能力不错,还可以理解提示中一次包含多个镜头的片段要求。

比如,画面中既有海边小屋的特写,还有运镜转向海面远眺的远景,通过镜头切换,赋予画面一种鲜明的叙事感。

提示语:在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。

对于第一人称、延时摄影等镜头语言,Vidu 也能准确理解和表达,用户只需细化提示词,即可大幅提升视频的可控性。0:07

提示词:第一人称视角,女友牵着我的手,一起漫步在海边。

Vidu 是一款能够准确理解和生成一些词汇的视频生成器,比如数字。

提示词:一块生日蛋糕,上面插着蜡烛,蜡烛是数字 “32”。

蛋糕上换成「Happy Birthday」的字样,它也能hold住。

提示词:一块蛋糕,上面写着"HAPPY BIRTHDAY"。

动漫风格嘎嘎好用

目前市面上的 AI 视频工具大多局限于写实风格或源于现实的想象,而 Vidu 除了写实风格外,还支持动漫风格。

我们选择动画模型,直接输入提示词即可输出动漫风格视频。

例如,提示词:动漫风格,小女孩站在厨房里切菜。

说实话,这画风有宫崎骏老爷子的味道。Vidu 读懂了提示词,小女孩切菜动作一气呵成,就是手指和刀具在不经意间仍有变形。

提示词:动漫风格,一个戴着耳机的小女孩在跳舞。

Vidu 的想象力还挺丰富,自个儿把背景设置为带有喷泉的公园,这也让视频画面不那么单调。

当然,我们还可以上传一张动漫参考图片,再输入提示词,如此一来,图片中的动漫人物就能动起来啦。

例如,我们上传一张蜡笔小新的静态图,然后输入提示词:蜡笔小新大笑着举起手里的小花。图片用途选择「用作起始帧」。

我们来瞅瞅效果:

再上传一张呆萌皮卡丘的图像,输入提示词为「皮卡丘开心地蹦起来」。图片用途选择「用作起始帧」。

继续上效果:

上传《海贼王》路飞的图像,再喂给它提示词:男孩突然哭起来。

效果如下:

不得不说, Vidu 的动漫效果相当惊艳,在保持风格一致性的同时,显著提高了画面的稳定性和流畅性,没有出现变形、崩坏或者六指狂魔、左右腿不分等「邪门」画面。

梗图、表情包燥起来

在「图生视频」板块中,除了支持首帧图上传,Vidu 这次还上新一项功能 —— 角色一致性(Charactor To Video)。

所谓角色一致性,就是上传一个角色图像,然后可以指定该角色在任意场景中做出任意动作。

我们就拿吴京为例。

提示词:在一艘宇宙飞船里,吴京正穿着太空服,对镜头挥手。

提示词:吴京穿着唐装,站在一条古街上,向镜头挥手。

如果说,首帧图上传适合创作场景一致性的视频,那么,有了角色一致性功能,从科幻角色到现代剧,演员七十二变,信手拈来。

此外,有了角色一致性功能,普通用户创作「梗图」、「表情包」可以燥起来了!

比如让北美「意难忘」贾斯汀・比伯和赛琳娜再续前缘:

《武林外传》中佟湘玉和白展堂嗑着瓜子,聊着同福客栈的八卦:

还有《甄嬛传》皇后娘娘委屈大哭:

只要脑洞够大,什么地铁老人吃手机、鳌拜和韦小宝打啵、容嬷嬷喂紫薇吃鸡腿,Vidu 都能整出来。

就一个字,快!

视频生成过程中,用户最烦啥?当然是龟速爬行的进度条。

试想,为了一段几秒的视频,愣是趴在电脑前等个十分钟,再慢性子的人也很难不破防。

目前,市面上主流 AI 视频工具生成一段 4 秒左右的视频片段,通常需要 1 到 5 分钟,甚至更长。

例如,Runway 最新推出的 Gen-3 工具需要 1 分钟来完成 5s 视频生成,可灵需要 2-3 分钟,而 Vidu 将这一等待时间缩短至 30 秒,速度比业内最快水平的 Gen-3 还要再快一倍。

基于完全自研的 U-ViT 架构,商用精心布局

「Vidu」底层基于完全自研的 U-ViT 架构,该架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 和 Transformer 融合的架构。

在 DiT 论文发布两个月前,清华大学的朱军团队提交了一篇论文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。这篇论文提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。这是「Vidu」最重要的技术基础。

由于不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的,「Vidu」 的作品感官上更加一镜到底,视频从头到尾连续生成,没有插帧痕迹。除了底层架构上的创新,「Vidu」也复用了生数科技过往积累下的工程化经验和能力。

生数科技曾称,从图任务的统一到融合视频能力,「Vidu」可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。他们也透露,「Vidu」还在加速迭代提升。面向未来,「Vidu」灵活的模型架构也将能够兼容更广泛的多模态能力。

生数科技成立于 2023 年 3 月,核心成员来自清华大学人工智能研究院,致力于自主研发世界领先的可控多模态通用大模型。自 2023 年成立以来,团队已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。

公司首席科学家由清华人工智能研究院副院长朱军担任; CEO 唐家渝本硕就读于清华大学计算机系,是 THUNLP 组成员;CTO 鲍凡是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成的。

今年 1 月,生数科技旗下视觉创意设计平台 PixWeaver 上线了短视频生成功能,支持 4 秒高美学性的短视频内容。2 月份 Sora 推出后,生数科技内部成立攻坚小组,加快了原本视频方向的研发进度,不到一个月的时间,内部就实现了 8 秒的视频生成,紧接着 4 月份就突破了 16 秒生成,生成质量与时长全方面取得突破。

如果说 4 月份的模型发布展示了 Vidu 在视频生成能力上的领先,这次正式发布的产品则展示了 Vidu 在商业化方面的精心布局。生数科技目前采取模型层和应用层两条路走路的模式。

一方面,构建覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,面向 B 端提供模型服务能力。

另一方面,面向图像生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应用方向主要是游戏制作、影视后期等内容创作场景。



 #Segment Anything Model 2 (SAM 2)

刚刚,Meta开源「分割一切」2.0模型,视频也能分割了

还记得 Meta 的「分割一切模型」吗?这个模型在去年 4 月发布,被很多人认为是颠覆传统 CV 任务的研究。

时隔一年多,刚刚,Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上,SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。

SAM 2 可以分割任何视频或图像中的任何对象 —— 甚至是它以前没有见过的对象和视觉域,从而支持各种不同的用例,而无需自定义适配。

在与黄仁勋的对话中,扎克伯格提到了 SAM 2:「能够在视频中做到这一点,而且是在零样本的前提下,告诉它你想要什么,这非常酷。」

Meta 多次强调了最新模型 SAM 2 是首个用于实时、可提示的图像和视频对象分割的统一模型,它使视频分割体验发生了重大变化,并可在图像和视频应用程序中无缝使用。SAM 2 在图像分割准确率方面超越了之前的功能,并且实现了比现有工作更好的视频分割性能,同时所需的交互时间为原来的 1/3。

该模型的架构采用创新的流式内存(streaming memory)设计,使其能够按顺序处理视频帧。这种方法使 SAM 2 特别适合实时应用,为各个行业开辟了新的可能性。

当然,处理视频对算力的要求要高得多。SAM 2 仍然是一个庞大的模型,也只有像 Meta 这样的能提供强大硬件的巨头才能运行,但这种进步还是说明了一些问题:一年前,这种快速、灵活的分割几乎是不可能的。SAM 2 可以在不借助数据中心的情况下运行,证明了整个行业在计算效率方面的进步。

模型需要大量的数据来训练,Meta 还发布了一个大型带注释数据库,包括大约 51,000 个真实世界视频和超过 600,000 个 masklets。与现有最大的视频分割数据集相比,其视频数量多 4.5 倍,注释多 53 倍,Meta 根据 CC BY 4.0 许可分享 SA-V。在 SAM 2 的论文中,另一个包含超过 100,000 个「内部可用」视频的数据库也用于训练,但没有公开。

与 SAM 一样,SAM 2 也会开源并免费使用,并在 Amazon SageMaker 等平台上托管。为了履行对开源 AI 的承诺,Meta 使用宽松的 Apache 2.0 协议共享代码和模型权重,并根据 BSD-3 许可分享 SAM 2 评估代码。

目前,Meta 已经提供了一个 Web 的演示体验地址: https://sam2.metademolab.com/demo09

基于 web 的 SAM 2 演示预览,它允许分割和跟踪视频中的对象。

正如扎克伯格上周在一封公开信中指出的那样,开源人工智能比任何其他现代技术都更具有潜力,可以提高人类的生产力、创造力和生活质量,同时还能加速经济增长并推动突破性的医学和科学研究。人工智能社区利用 SAM 取得的进展给我们留下了深刻的印象, SAM 2 必将释放更多令人兴奋的可能性。

SAM 2 可立即应用于各种各样的实际用例 - 例如,跟踪对象(左)或分割显微镜捕获的视频中的移动细胞以辅助科学研究(右)。


未来,SAM 2 可以作为更大型 AI 系统的一部分,通过 AR 眼镜识别日常物品,并向用户提供提醒和说明。

SAM 2 前脚刚上线,大家就迫不及待的用起来了:「在 Meta 未提供的测试视频上试用 SAM 2。效果好得令人瞠目结舌。」

来源:https://x.com/BenjaminDEKR/status/1818066956173664710

还有网友认为,SAM 2 的出现可能会使其他相关技术黯然失色。

如何构建 SAM 2?

SAM 能够了解图像中对象的一般概念。然而,图像只是动态现实世界的静态快照。许多重要的现实用例需要在视频数据中进行准确的对象分割,例如混合现实、机器人、自动驾驶车辆和视频编辑。Meta 认为通用的分割模型应该适用于图像和视频。

图像可以被视为具有单帧的非常短的视频。Meta 基于这个观点开发了一个统一的模型,无缝支持图像和视频输入。处理视频的唯一区别是,模型需要依靠内存来调用该视频之前处理的信息,以便在当前时间步准确地分割对象。

视频中对象的成功分割需要了解实体在空间和时间上的位置。与图像分割相比,视频提出了重大的新挑战。对象运动、变形、遮挡、光照变化和其他因素可能会因帧而异。由于摄像机运动、模糊和分辨率较低,视频的质量通常低于图像,这增加了难度。因此,现有的视频分割模型和数据集在为视频提供可比的「分割任何内容」功能方面存在不足。

Meta 构建 SAM 2 和新 SA-V 数据集来解决这些挑战。

与用于 SAM 的方法类似,Meta 对视频分割功能的研究涉及设计新任务、模型和数据集。

研究团队首先开发了可提示的(promptable)视觉分割任务并设计了一个能够执行该任务的模型 ——SAM 2。

然后,研究团队使用 SAM 2 来帮助创建视频对象分割数据集 ——SA-V,该数据集比当前存在的任何数据集大一个数量级。研究团队使用它来训练 SAM 2 以实现 SOTA 性能。

可提示的视觉分割

2SAM 2 支持在任何视频帧中选择和细化对象。

研究团队设计了一个可提示的视觉分割任务,将图像分割任务推广到视频领域。SAM 经过训练,以图像中的输入点、框或掩码来定义目标对象并预测分割掩码。该研究训练 SAM 2 在视频的任何帧中获取输入提示来定义要预测的时空掩码(即「masklet」)。 

SAM 2 根据输入提示立即预测当前帧上的掩码,并将其临时传播(temporally propagate)以生成跨所有视频帧的目标对象的 masklet。一旦预测出初始 masklet,就可以通过在任何帧中向 SAM 2 提供附加提示来迭代完善它。这可以根据需要重复多次,直到获得所需的 masklet。

统一架构中的图像和视频分割

2从 SAM 到 SAM 2 的架构演变。

SAM 2 架构可以看作是 SAM 从图像领域到视频领域的推广。 

SAM 2 可以通过点击、边界框或掩码被提示,以定义给定帧中对象的范围。轻量级掩码解码器采用当前帧的图像嵌入和编码提示来输出该帧的分割掩码。在视频设置中,SAM 2 将此掩码预测传播到所有视频帧以生成 masklet,然后在任何后续帧上迭代添加提示以细化 masklet 预测。

为了准确预测所有视频帧的掩码,研究团队引入了一种由记忆编码器、记忆库(memory bank)和记忆注意力模块组成的记忆机制。当应用于图像时,内存组件为空,模型的行为类似于 SAM。对于视频,记忆组件能够存储关于该会话中的对象和先前用户交互的信息,从而允许 SAM 2 在整个视频中生成 masklet 预测。如果在其他帧上提供了额外的提示,SAM 2 可以根据对象存储的记忆上下文有效地纠正其预测。

帧的记忆由记忆编码器根据当前掩码预测创建,并放置在记忆库中以用于分割后续帧。记忆库由先前帧和提示帧的记忆组成。记忆注意力操作从图像编码器获取每帧嵌入,并根据记忆库进行调整以产生嵌入,然后将其传递到掩码解码器以生成该帧的掩码预测。对于所有后续帧重复此操作。

Meta 采用流式架构,这是 SAM 在视频领域的自然推广,一次处理一个视频帧并将有关分割对象的信息存储在记忆中。在每个新处理的帧上,SAM 2 使用记忆注意力模块来关注目标对象之前的记忆。这种设计允许实时处理任意长的视频,这不仅对于 SA-V 数据集的注释收集效率很重要,而且对于现实世界的应用(例如在机器人领域)也很重要。

当图像中被分割的对象存在模糊性时,SAM 会输出多个有效掩码。例如,当一个人点击自行车轮胎时,模型可以将这次点击解释为仅指轮胎或整个自行车,并输出多个预测。在视频中,这种模糊性可能会扩展到视频帧中。例如,如果在一帧中只有轮胎可见,则轮胎上的点击可能仅与轮胎相关,或者随着自行车的更多部分在后续帧中变得可见,这种点击可能是针对整个自行车的。为了处理这种模糊性,SAM 2 在视频的每个步骤创建多个掩码。如果进一步的提示不能解决歧义,模型会选择置信度最高的掩码,以便在视频中进一步传播。

9SAM 2 架构中的遮挡 head 用于预测对象是否可见,即使对象暂时被遮挡,也能帮助分割对象。

在图像分割任务中,在给定积极提示的情况下,帧中始终存在可分割的有效对象。在视频中,特定帧上可能不存在有效对象,例如由于对象被遮挡或从视图中消失。为了解释这种新的输出模式,研究团队添加了一个额外的模型输出(「遮挡 head(occlusion head)」),用于预测当前帧中是否存在感兴趣的对象。这使得 SAM 2 能够有效地处理遮挡。

SA-V:Meta 构建了最大的视频分割数据集

来自 SA-V 数据集的视频和掩码注释。

为了收集一个大型且多样化的视频分割数据集,Meta 建立了一个数据引擎,其中注释员使用 SAM 2 交互地在视频中注释 masklet,然后将新注释的数据用于更新 SAM 2。他们多次重复这一循环,以迭代地改进模型和数据集。与 SAM 类似,Meta 不对注释的 masklet 施加语义约束,注重的是完整的物体(如人)和物体的部分(如人的帽子)。

借助 SAM 2,收集新的视频对象分割掩码比以往更快,比每帧使用 SAM 快约 8.4 倍。此外,Meta 发布的 SA-V 数据集的注释数量是现有视频对象分割数据集的十倍以上,视频数量大约是其 4.5 倍。 

总结而言,SA-V 数据集的亮点包括:

  • 在大约 51,000 个视频中有超过 600,000 个 masklet 注释;
  • 视频展示了地理上不同的真实场景,收集自 47 个国家;
  • 覆盖整个对象、对象中的一部分,以及在物体被遮挡、消失和重新出现的情况下具有挑战性的实例。 

结果

下方两个模型都是用第一帧中的 T 恤蒙版初始化的。对于 baseline,Meta 使用来自 SAM 的蒙版,问题是过度分割并包括人的头部,而不是仅跟踪 T 恤。相比之下,SAM 2 能够在整个视频中准确跟踪对象部分。

为了创建统一的图像和视频分割模型,Meta 将图像视为单帧视频,在图像和视频数据上联合训练 SAM 2。团队利用了去年作为 Segment Anything 项目的一部分发布的 SA-1B 图像数据集、SA-V 数据集以及额外的内部许可视频数据集。

SAM 2(右)提高了 SAM(左)图像中的对象分割精度。

SAM 2 论文也展示了该模型的多项提升:

1、SAM 2 在 17 个零样本视频数据集的交互式视频分割方面表现明显优于以前的方法,并且所需的人机交互减少了大约三倍。

2、SAM 2 在 23 个数据集零样本基准测试套件上的表现优于 SAM,而且速度快了六倍。

3、与之前的最先进模型相比,SAM 2 在现有的视频对象分割基准(DAVIS、MOSE、LVOS、YouTube-VOS)上表现出色。

4、使用 SAM 2 进行推理感觉很实时,速度大约为每秒 44 帧。

5、循环中使用 SAM 2 进行视频分割注释的速度比使用 SAM 进行手动每帧注释快 8.4 倍。

6、为了衡量 SAM 2 的公平性,Meta 对特定人群的模型性能进行了评估。结果表明,在感知性别和 18-25 岁、26-50 岁和 50 岁以上三个感知年龄组评估中,模型显示的差异很小。

更多结果,请查看论文。

论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/453323338_287900751050452_6064535069828837026_n.pdf?_nc_cat=107&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=TnvI-AaGawoQ7kNvgFJPdfC&_nc_ht=scontent-sjc3-1.xx&oh=00_AYAlCBmHCcIEnDo-YzzCScg8NZPgTQlwjE9FVlniLRw5JQ&oe=66AE2179

局限性

虽然 SAM 2 在分割图像和短视频中的对象方面表现出色,但仍然会遇到诸多挑战。

SAM 2 可能会在摄像机视角发生剧烈变化、长时间遮挡、拥挤的场景或较长的视频中失去对对象的追踪。

在实际应用中,Meta 设计了交互式模型来缓解这一问题,并通过在任意帧中点击校正来实现人工干预,从而恢复目标对象。

在拥挤的场景中,SAM 2 有时会混淆多个外观相似的对象。

当目标对象只在一帧中指定时,SAM 2 有时会混淆对象,无法正确分割目标,如上述视频中的马匹所示。在许多情况下,通过在未来帧中进行额外的细化提示,这一问题可以完全解决,并在整个视频中获得正确的 masklet。

虽然 SAM 2 支持同时分割多个单独对象的功能,但模型的效率却大大降低。实际上,SAM 2 对每个对象进行单独处理,只利用共享的每帧嵌入,不进行对象间通信。虽然这简化了模型,但纳入共享的对象级上下文信息有助于提高效率。

SAM 2 的预测可能会错过快速移动对象的细节。

对于复杂的快速运动对象,SAM 2 有时会漏掉一些细节,而且预测结果在帧之间可能不稳定,如上文骑自行车者的视频所示。

在同一帧或其他帧中添加进一步的提示来优化预测只能部分缓解此问题。在训练过程中,如果模型预测在帧间抖动,不会对其进行任何惩罚,因此无法保证时间上的平滑性。提高这种能力可以促进需要对精细结构进行详细定位的实际应用。

虽然 Meta 的数据引擎在循环中使用了 SAM 2,且在自动 masklet 生成方面也取得了长足进步,但仍然依赖人工注释来完成一些步骤,例如验证 masklet 质量和选择需要校正的帧。

因此,未来的发展需要进一步自动化这个数据注释过程,以提高效率。要推动这项研究,还有很多工作要做。

参考链接:

 https://ai.meta.com/blog/segment-anything-2-video/

 https://techcrunch.com/2024/07/29/zuckerberg-touts-metas-latest-video-vision-ai-with-nvidia-ceo-jensen-huang/