CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

华中科技大学和字节跳动的研究团队提出GLEE,一个强大的基础模型,用于处理图像和视频中的目标感知任务,支持开放词表、目标描述和交互式操作。GLEE通过统一的训练框架和大规模数据训练,实现了零样本迁移,且在多项任务上达到SOTA性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

d11de8e5b355632c546737532bca8815.gif

©作者 | 机器之心编辑部

来源 | 机器之心

近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。

2722eb0720f9efd34c7f59fb6dee6e7f.gif

为了解决这个问题,来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE,一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪,并在实现全能性的同时保持 SOTA 性能。

此外,GLEE 还构建了统一优化目标的训练框架,从超过一千万的多源数据中汲取知识,实现对新数据和任务的零样本迁移。并验证了多种数据之间相互促进的能力。模型和训练代码已全部开源。

1901535e628562d7e81d93dc2d7d902f.png

论文题目:

GLEE: General Object Foundation Model for Images and Videos at Scale

论文地址:

https://arxiv.org/abs/2312.09158

代码地址:  

https://github.com/FoundationVision/GLEE

Demo地址:

https://huggingface.co/spaces/Junfeng5/GLEE_demo

视频地址:  

https://www.bilibili.com/video/BV16w4m1R7ne/

c7fc2697a7913fa59281dffd9f7f3e53.png

GLEE可以解决哪些任务?

GLEE 可以同时接受语义和视觉上的 prompt 作为输入,因此,任意长度的开放词表、目标属性描述、目标位置描述都、交互式的 point,box,mask 都可以被作为 prompt 来指引 GLEE 检测分割出任意目标。具体来说,开放世界的目标检测、实例分割、文本描述的指代检测与分割(referring expression comprehension and segmentation)以及交互式分割都可以被轻松实现。

此外,通过在超大规模的图像数据上进行训练,GLEE 学习到了更加有判别性的目标特征,直接对这些特征进行无参数的帧间匹配可以实现高质量的跟踪,从而将 GLEE 的能力完全扩展到视频任务上。在视频任务中 GLEE 可以实现开放世界的视频实例分割(VIS),视频目标分割(VOS),参考视频实例分割(RVOS)以及交互式的视频目标分割跟踪。

649e4b1125f6812f4db10128c2e2ba97.png

GLEE统一了哪些数据用来训练?

GLEE 使用了来自 16 个数据集的超过一千万图片数据进行训练,充分利用了现有的标注数据和低成本的自动标注数据构建了多样化的训练集,是 GLEE 获得强大泛化性的根本原因。

7f603a1655f61a4655b461344a54bfe1.png

GLEE 使用的数据根据标注类型可以分为四大类:1)基于词表的目标检测数据集,如 COCO、Objects365;2)基于目标描述的 grounding 数据集,如 RefCOCO 系列、VisualGenome;3)无类语义信息的 open-world 数据集,如 SA1B、UVO;4)视频数据,如 YouTubeVIS、OVIS。GLEE 所使用的图片超过 1 千万,其中标注目标数量超过一亿五千万。

0a162009d03c1c3c71e7e33bdb4a483a.png

115dd00b092742b94e044794702918ac.png

GLEE如何构成?

GLEE 包括图像编码器、文本编码器、视觉提示器和目标检测器,如图所示。文本编码器处理与任务相关的任意描述,包括目标类别词表、目标任何形式的名称、关于目标的标题和指代表达。视觉提示器将用户输入(如交互式分割中的点、边界框或涂鸦)编码成目标对象的相应视觉表示。然后,这些信息被整合到一个检测器中,根据文本和视觉输入从图像中提取对象。

45479b75d835040a51c6443eda553af7.png

5ebc18ef201a869e8fe561654b76a9f8.png

在目标感知任务上的全能性和泛化能力

该研究展示了 GLEE 模型作为一个目标感知基础模型的普适性和有效性,它可以直接应用于各种以目标为中心的任务,同时确保最先进的性能,无需进行微调。

8c754e2135f59288866f0a96d07d90c1.png

此外,该研究在一些开放词汇表的视频任务中验证了 GLEE 的零样本泛化能力。在 TAO、BURST、LV-VIS 这三个开放词汇表的跟踪数据集上,GLEE 在未经过训练和微调的情况下,取得了令人惊叹的最先进(SOTA)性能,这证明了 GLEE 在大规模联合训练中学习到的通用对象感知能力和强大的泛化能力。

e4f39127768f1011004b8fc6fbbac1df.png

c4f17b40c6a8d68951b386f41bf88a88.png

作为基础模型的潜力

作为基础模型,该研究用预训练且冻结的 GLEE-Plus 替换了 LISA 的中使用的 SAM backbone,并将 GLEE 的 Object Query 输入到 LLAVA 中,移除了 LISA 的解码器。该研究直接将输出的 SEG 标记与 GLEE 特征图进行点积运算以生成 Mask。在进行相同步数的训练后,修改后的 LISA-GLEE 取得了与原版 LISA 使用 SAM 相媲美的结果,这证明了 GLEE 的表示具有多功能性,并且在为其他模型服务时的有效性。

2731efbb8d97c2e2f2ef629fba335712.png

更多阅读

e650453ab85486f48162cee43706b376.png

edddd885464eb6a5ec8a55a57c804b7d.png

0fb20814ceb00467aa571738f6a15977.png

ccdd9d8cee102db951e7ccd2ef7ab1c5.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

1d9639317dd9d9d7170d9149f53a750e.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

c279c59262821b4914c58f1c85c76b8f.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值