【深度学习】GPT-4结合SAM2:免训练多模态分割的全新解决方案!| 已开源

北京航空航天大学 李红羽 投稿 凹非寺
量子位 | 公众号 QbitAI

免训练多模态分割领域有了新突破

中科院信工所、北航、合工大、美团等单位联合提出了一种名为AL-Ref-SAM 2的方法。

这种方法利用GPT-4和SAM-2来统一多模态分割,让系统在免训练的情况下,也能拥有不亚于全监督微调的性能!

63919e57ce510077b2576e592a772232.png

≥ 全监督方法

多模态分割主要有两种方法:一种是依据文字描述找到视频中特定对象的分割方法(RVOS),另一种是通过声音识别视频中发声对象的方法(AVS)。

免训练的多模态视频指代分割虽然在数据和训练成本上有较大优势,却由于缺乏在特定任务数据上针对性的模型参数调整,导致性能与全监督方法有较大差距。

而研究团队要解决的就是这个问题。

实验中,他们对多个RVOS基准数据集进行了广泛验证,包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS,同时在AVSBench的多个子集上也进行了测试。

最后的实验结果显示,AL-Ref-SAL 2在这些数据集上的表现不仅优于其他无需训练和弱监督的方法,并且甚至在一定情况下,系统的性能可以与全监督方法相媲美

特别是在Ref-YouTube-VOS和Ref-DAVIS17这两个数据集上,AL-Ref-SAM 2的表现甚至超过了大多数全监督方法

3c1fcfdb07c88bd33b4bd9f042ab9102.png

 免训练设置下三阶段分割基线方法(a)与本文方法(b)的比较

具体咋实现的?

研究团队把AL-Ref-SAM 2的算法分成了三个阶段

第一阶段:获取形式统一的指代信息,对于RVOS任务,指代信息是输入的文本描述本身,而对于AVS任务,研究人员们利用LBRU模块将音频转化为对发声对象的语言形式描述。

第二阶段:根据语言指代和视频内容,利用GPT-4进行两阶段时空推理,从视频中逐步选出关键帧和关键框。

第三阶段:以关键帧为分割起点,关键框为初始提示,利用SAM 2获得目标对象在整段视频中的分割掩码序列。

1f28abc412f908e728c16ad875166749.png

 AL-Ref-SAM 2的整体流程

具体实验细节,请看下文展开~

语言绑定的音频指代转换(LBRU)

LBRU将音频信号转换为与语言描述统一的格式(例如“[CLS] that is making sound”,其中[CLS]代表了具体的发声对象类别),以减少音频信息中的语义模糊性和冗余性。

为了获取发声对象的准确类别,LBRU利用了一个预训练音频分类器,如BEATs,对音频进行分类,并保留置信度前k高的类别文本。

由于这些类别中可能包含了重复类别或背景声类别,LBRU进一步引入了视频作为视觉上下文,利用GPT-4根据视频内容对音频类别进行过滤、合并,并将保留的音频类别转化为发出该声音的对象类别。

e74541c1ddc41f02dd44a356f9884c0f.png

 语言绑定的音频指代转换模块

GPT辅助的关键帧/框选择(GPT-PS)

GPT-PS利用GPT-4分别进行时序推理选出关键帧,以及空间推理选出关键框。

在时序推理阶段,为了使GPT可以处理视频格式的内容,研究团队首先对视频帧进行采样,将采样后的若干帧拼接为一张图并在图上标出帧号。

为了显式引导GPT在理解视频内容的基础上选择关键帧,他们还针对性地设计了关键帧思维链提示模板,要求GPT首先描述整段视频的场景,再根据语言指代选出关键帧。

之后,研究人员将语言指代信息和关键帧输入GroundingDINO模型中,获得多个可能的候选框

在空间推理阶段,首先将候选框画在关键帧上,并且依旧将其与其他采样帧顺序拼接作为视觉信号输入GPT。

类似地,他们也设计了关键框思维链提示模板,要求GPT描述每个候选框中对象的特征和不同对象之间的关系,并对指代信息进行语法分析确定真正的指代主体,最后再根据语言指代选出包含目标对象的候选框作为关键框。

2ff129b1b572b33f94ff2dbc197cd5ae.png

以下是研究团队得出的相关数据:

e8494cc9a7af20c8a2b5a200152487db.png
0282cb7a61d1ea231c6772664f8fa667.png

论文链接:https://arxiv.org/pdf/2408.15876
代码链接:https://github.com/appletea233/AL-Ref-SAM2

—  —

 
 

6b9e6ba462dde1dc01e8d5f3d34b1641.jpeg

 
 
 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961)

5975d8efe75cddd1adbde751593dc3f1.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值