Video-LLaMA

EmoC001

已于 2024-02-29 21:48:18 修改

阅读量473

点赞数

分类专栏：鼠鼠的AI笔记文章标签： llama

于 2023-08-22 12:02:48 首次发布

本文链接：https://blog.csdn.net/u013302570/article/details/132058714

版权

29 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

链接

https://github.com/DAMO-NLP-SG/Video-LLaMA

能够捕捉到一小小短时间（temporal）里视觉的变化
- 使用了Q-former 去做视频上的encoding，通过视频转文字的方式去做理解
符合人类对视频理解的套路，即声音+视觉信号
- 套用了Facebook的 imagebind 给 LLM 做多模态的embedding的buff, 不然介于语音数据的稀有，如果没有 imagebind, 那么就不太能将语音的信息用进去

请添加图片描述
整个模型，蓝色的blocks都是可以被拿来直接用的，橙色部分是一定要经过训练，以促成Llama video 模型正常联通使用的。

视觉和语音部分都大同小异：

相同点：

不同点：
4. 数据类型和格式
5. 根据数据类型对Qformer结构做了些调整
6. 图像encoder 用的是 Blip-2 中专门做图像语义

了解本专栏

关注