由北京大学、中山大学等AI人工智能科技优选项目组发布“Video-LLaVA“: 大视觉语言模型的崭新里程碑

大视觉语言模型LVLM)的引入显著提升了视觉语言理解领域下游任务的性能。目前的方法通常将图像和视频编码为单独的特征空间,并将其作为大型语言模型(LLM)的输入。然而,由于图像和视频缺乏一致的标记,即在投影前存在错位,这导致大型语言模型在学习多模态交互时面临挑战。在这项研究中,我们通过将视觉表示统一到语言特征空间,实现了基础LLM向统一LVLM的转变。我们提出了一个简单而强大的LVLM基线,命名为Video-LLaVA,通过从混合数据集中学习图像和视频相互增强的方式而得以建立。Video-LLaVA在跨足5个图像问答数据集和4个图像基准工具包的9个图像基准测试中表现出色。此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet等数据集上的性能分别比Video-ChatGPT高出5.8%、9.9%、18.6%和10.1%。值得注意的是,大量实验证明,Video-LLaVA通过统一的视觉表示使图像和视频相辅相成,其性能优于专为图像或视频设计的模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值