文章目录
链接
https://github.com/DAMO-NLP-SG/Video-LLaMA
主要贡献
- 能够捕捉到一小小短时间(temporal)里视觉的变化
- 使用了Q-former 去做视频上的encoding,通过 视频转文字的方式去做理解 - 符合人类对视频理解的套路,即声音+视觉 信号
- 套用了Facebook的 imagebind 给 LLM 做多模态的embedding的buff, 不然介于语音数据的稀有,如果没有 imagebind, 那么就不太能将语音的信息用进去
模型
整个模型,蓝色的blocks都是可以被拿来直接用的,橙色部分是一定要经过训练,以促成Llama video 模型正常联通使用的。
视觉和语音部分都大同小异:
相同点:
- 都使用了Qformer,并且通过其中learnable的 position 捕捉 temporal的信息
- 都用到了pretrained 的模型作为数据的encoder
- 数据是多份的(图像:每帧;语音:sample M 个 2秒片段。)
不同点:
4. 数据类型和格式
5. 根据数据类型对Qformer结构做了些调整
6. 图像encoder 用的是 Blip-2 中专门做图像语义