TPAMI 2024 |X 2 -VLM:视觉语言任务的全能预训练模型
最新推荐文章于 2024-11-11 10:17:53 发布
X2-VLM是一种统一的视觉语言预训练模型,旨在同时学习多粒度对齐和定位。它通过多粒度视觉特征与文本描述关联,处理图像-文本和视频-文本任务,超越了当前SoTA方法。X2-VLM在多种下游任务如图像-文本检索、视觉问答、视频-文本检索和多语言多模态任务中表现出色,并且其模块化设计允许在不同语言和领域中高效适应。
订阅专栏 解锁全文
114

被折叠的 条评论
为什么被折叠?



