《深入浅出多模态》(二):多模态任务及数据集介绍
于 2024-02-04 10:30:00 首次发布
本文深入介绍多模态任务,涵盖概念、技术难点、下游任务(如Visual Grounding、VQA、Image Caption)及常用数据集,适合多模态研究初学者。文中探讨了Joint和Coordinated表征学习,并列举了多模态数据集如COCO Captions、RefCOCO等。

订阅专栏 解锁全文
4260

被折叠的 条评论
为什么被折叠?



