通用检测大模型 | 华科白翔团队提出以对象为中心的基础模型GLEE

最新推荐文章于 2024-11-25 08:30:00 发布

AIWalker-Happy

最新推荐文章于 2024-11-25 08:30:00 发布

阅读量1k

点赞数 30

分类专栏：目标检测文章标签：目标检测视觉大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huohu728/article/details/136279583

版权

本文首发: AIWalker

https://arxiv.org/abs/2312.09158
https://glee-vision.github.io
AIWalker后台回复【GLEE】即可下载原文与译文。

在这项工作中，我们提出了GLEE：一个对象级的基础模型，用于定位和识别图像和视频中的对象。

通过一个统一的框架，GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别，以完成各种物体感知任务。
采用内聚学习策略，GLEE从不同监督级别的不同数据源中获取知识，以形成通用对象表示，擅长零次迁移到新数据和任务。

具体来说，我们采用图像编码器，文本编码器和视觉解码器来处理多模态输入，从而能够同时解决各种以对象为中心的下游任务，同时保持最先进的性能。通过对来自不同基准的500多万张图像进行广泛的训练，GLEE表现出显着的多功能性和改进的泛化性能，有效地处理下游任务，而不需要特定于任务的适应。通过集成大量的自动标注数据，我们进一步增强了其零炮概化能力。此外，GLEE能够被集成到大型语言模型中，作为基础模型为多模态任务提供通用的对象级信息。我们希望ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AIWalker-Happy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。