通用检测大模型 | 华科白翔团队提出以对象为中心的基础模型GLEE

本文首发: AIWalker

https://arxiv.org/abs/2312.09158
https://glee-vision.github.io
AIWalker后台回复【GLEE】即可下载原文与译文。

在这项工作中,我们提出了GLEE:一个对象级的基础模型,用于定位和识别图像和视频中的对象

  • 通过一个统一的框架,GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别,以完成各种物体感知任务。
  • 采用内聚学习策略,GLEE从不同监督级别的不同数据源中获取知识,以形成通用对象表示,擅长零次迁移到新数据和任务。

具体来说,我们采用图像编码器,文本编码器和视觉解码器来处理多模态输入,从而能够同时解决各种以对象为中心的下游任务,同时保持最先进的性能。 通过对来自不同基准的500多万张图像进行广泛的训练,GLEE表现出显着的多功能性和改进的泛化性能,有效地处理下游任务,而不需要特定于任务的适应。 通过集成大量的自动标注数据,我们进一步增强了其零炮概化能力。 此外,GLEE能够被集成到大型语言模型中,作为基础模型为多模态任务提供通用的对象级信息。 我们希望,我们的方法的可靠性和普遍性将标志着一个重要的一步,有效的视觉基础模型的AGI系统的发展。 模型和代码将在/上发布。

本文亮点

  1. 我们提出了GLEE:一个通用的以对象为中心的基础模型的图像和视频, GLEE能够同时处理各种以对象为中心的任务,同时保持最先进的性能。
  2. 我们开发了一个多粒度的联合监督框架和一个可扩展的训练范例。 GLEE的统一方法支持多源数据,并能够对来自不同监督级别的各种基准的500多万张图像进行联合训练。 这大大方便了额外的手动或自动注释数据的合并,并简化了数据集的缩放。
  3. GLEE在对象级图像和视频任务的范围内展示了卓越的通用性和强大的zero-shot可传输性。 此外,GLEE可以提供现代LLM目前缺乏的可视化对象级信息,从而作为增强其他架构或模型的基础组件。

本文方案

如图所示,所提GLEE包括一个图像编码器,一个文本编码器,一个视觉解码器,和一个对象解码器。 文本编码器处理与任务相关的任意描述,包括对象类别、任何形式的名称、关于对象的标题和引用表达式。 视觉识别器在交互式分割期间将诸如点、边界框或涂鸦的用户输入编码成目标对象的对应视觉表示。 然后,它们被集成到一个检测器中,用于根据文本和视觉输入从图像中提取对象。
[外链图片转存中…(img-rSDYttld-1708828086389)]

关于方案的详细介绍建议感兴趣的同学查看原文。AIWalker后台回复【GLEE】即可下载原文与译文,快快学习呀。

本文实验

如上表所示:我们的模型在COCO和LVIS基准上都优于所有通才模型。 即使与其他最先进的spec-cialist方法相比,我们的模型仍然具有很强的竞争力。 这表明,GLEE同时掌握普遍和一般的对象表示,同时保持先进的能力, 这种特性对于适应需要精确目标定位的广泛下游任务至关重要。 对于REC和RES任务,我们在Ref-COCO [120],RefCOCO+ [120]和RefCOCOg [72]上评估了我们的模型,如表1所示,GLEE实现了与SOTA专业方法PolyFormer [62]相当的结果,展示了强大的理解文本描述的能力,并展示了适应更广泛的多模态下游任务的潜力。 在开放世界实例分割任务中,我们将“对象”视为类别名称,指示模型以类不可知的方式识别图像中所有可能的实例。 GLEE比之前的ODISE [107]高出8.9分,证明了识别开放世界场景中可能存在的所有合理实例的能力。GLEE模型作为对象级视觉基础模型的通用性和有效性,直接适用于各种以对象为中心的任务,同时确保最先进的性能,而不需要微调

zero-shot

如上表所示:GLEE超过先前最佳方法OVTrack 36.0%,在BURST中几乎是最佳基线性能的三倍,在LV-VIS中超过OV 2Seg43.6%。 这种出色的性能有力地验证了GLEE在处理一系列基准测试和任务的对象级任务时的卓越泛化和zero-shot能力

Ablation

  • 数据规模 使用10%、20%、50%、100%的训练数据训练GLEE-Pro,以评估zero-shot转移任务的性能,包括TAO、BURST、OVIS和YTVIS。 增加训练数据集的大小可增强不同下游任务的零触发性能。

  • 用作基础模型 我们用一个冻结的、预训练的GLEE-Plus代替丽莎视觉中枢,并将来自GLEE的对象查询馈送到LLAVA中,并去除LISA的解码器。 我们直接将输出的SEG令牌与GLEE特征映射进行点积来生成掩码。 经过同样数量的训练,改进后的LISA-GLEE获得了与原始版本相当的结果,证明了GLEE表示的多功能性及其在服务于其他模型中的有效性

效果展示

对于图像级交互式分割,GLEE支持将点、框或涂鸦作为视觉提示发送到模型,从而实现指定对象的直接分割。在视频对象分割的情况下,使用来自第一帧的掩蔽特征作为提示引用特征允许在视频的后续帧中分割对应的对象。

小结

我们介绍了一个先进的对象级基础模型GLEE,旨在直接适用于广泛的对象级图像和视频任务。 GLEE采用统一的学习范式,从不同监督级别的不同数据源中学习; GLEE在许多对象级任务上实现了最先进的性能,并在zero-shot泛化到新数据和任务方面表现出色,显示出其卓越的通用性和泛化能力。 此外,GLEE提供了一般的视觉对象级信息,这是目前在现代LLM中缺失的,为以对象为中心的mLLM奠定了坚实的基础

AIWalker后台回复【GLEE】即可下载原文与译文,快快学习呀。

  • 30
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
手写数学公式识别中的Transformer是一种用于处理手写数学表达式的神经网络模型。该模型通过关注全局上下文信息和局部细节来识别手写数学公式中的符号和结构。Transformer模型在手写数学公式识别中的应用有两篇相关论文。 第一篇论文是"Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer",该论文详细介绍了使用双向训练Transformer进行手写数学表达式识别的方法。论文提出了一种基于Transformer的多层注意力机制,可以捕捉到数学公式中符号之间的复杂关系,并实现了出色的识别性能。 第二篇论文是"Multi-scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition",该论文提出了一种基于多尺度注意力和密集编码器的方法,用于提高手写数学公式识别的准确性和鲁棒性。该方法通过引入多个注意力机制和密集编码器,可以有效地捕捉到数学公式中的局部和全局信息,从而实现更准确的识别结果。 这些论文的研究工作对于解决手写数学公式识别中的注意力不准确和复杂结构等问题具有重要意义。相关论文的代码已经开源,可以在相关论文的地址中找到。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [手写数学公式识别: 基于注意力聚合和双向交互学习的算法ABM(AAAI 2022 Oral)](https://blog.csdn.net/moxibingdao/article/details/124464298)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [ECCV 2022 | 白翔团队提出CAN:手写数学公式识别新算法](https://blog.csdn.net/amusi1994/article/details/126188495)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIWalker-Happy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值