【大模型系列】Video-LLaVA(2023.12)

在这里插入图片描述

1 Video-LLaVA总结(省流版)

1.1 Video-LLaVA是什么?

Video-LLaVA是北大袁粒团队提出的一个视觉理解模型,是他们之前工作的延申LanguageBind
在这里插入图片描述
核心创新点: 通过将Image和Video特征隐射到一个统一的视觉空间进行对齐,得到统一的visual representation。

当前LLM模型的问题:

  • LLMs as scheduler: 视觉模型被作为即插即用模块,LLM根据特定的任务来schedule(VisualChatGPT、HuggingGPT、MM-REACT、ViperGPT),这些模型不需要端到端训练,也无需对每种模态进行联合和训练和对齐;
  • LLMs as decoder:
    • MiniGPT-4:使用线性投影层将图像与文本对齐;这种对齐很弱且缺乏人类指令反馈;
    • mPLUG-Owl:2阶段:先自回归将图像和文本对齐,再使用人类指令进行微调;
    • InstructBLIP、LLaVA:使用人类指令数据集进行端到端训练;
    • VideoChat、VideoLLaMA:通过联合训练来实现对齐,可同时处理图像和视频。

1.2 Video-LLaVA能干什么?

Video-LLaVA可以实现是视觉理解,即图像、视频问答:
在这里插入图片描述

1.2.1 Image understanding

在这里插入图片描述

1.2.2 Video understanding

在这里插入图片描述

2 Method

在这里插入图片描述

  • LanguageBind [也是他们组的工作]:
    • 能从多种模态(image、video)中提取特征隐射到文本特征的空间;
    • 使用ViT-L/14初始化(OpenCLIP);
    • 参数冻结
  • LLM: Vicuna-7B v1.5;
  • Projection layer: 2 fully connected layers;
  • Word embedding layer: LLaMA;

3 训练细节

  • Stage1 Understanding training:使用question+visual feature作为输入,answer作为gt;
    • 558K LAION-CC-SBU image-text pairs
    • 702k video-text pairs WebVid(Valley)
  • Stage2 Instruction tuning:对话轮数大于1时,需要concat之前所有的对话和回答作为输入;
    • 665k image-text pairs LLaVA v1.5
    • 100k video-text pairs Video-ChatGPT
      在这里插入图片描述

数据处理方式:

  • Image: resize&crop,224x224
  • Video:均匀采样8帧,每帧处理与image一致

每个batch中随机组合image和videos:

  • Stage1: batchsize=256
  • Stage2: batchsize=128

4 相关数据

  • The images pretraining dataset is from LLaVA
  • The images tuning dataset is from LLaVA.
  • The videos pretraining dataset is from Valley
  • The videos tuning dataset is from Video-ChatGPT
DatasetsBaidu DiskSize
Image pretrainingLink25.48G
Image tuningLink66.44G
Video pretrainingLink431.87G
Video tuningLink160.07G

参考资料

[1] LanguageBind
[2] LLaVA
[3] Valley
[4] Video-ChatGPT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值