Video-LLaMA

链接

https://github.com/DAMO-NLP-SG/Video-LLaMA

主要贡献

  1. 能够捕捉到一小小短时间(temporal)里视觉的变化
    - 使用了Q-former 去做视频上的encoding,通过 视频转文字的方式去做理解
  2. 符合人类对视频理解的套路,即声音+视觉 信号
    - 套用了Facebook的 imagebind 给 LLM 做多模态的embedding的buff, 不然介于语音数据的稀有,如果没有 imagebind, 那么就不太能将语音的信息用进去

模型

请添加图片描述
整个模型,蓝色的blocks都是可以被拿来直接用的,橙色部分是一定要经过训练,以促成Llama video 模型正常联通使用的。

视觉和语音部分都大同小异:

相同点:

  1. 都使用了Qformer,并且通过其中learnable的 position 捕捉 temporal的信息
  2. 都用到了pretrained 的模型作为数据的encoder
  3. 数据是多份的(图像:每帧;语音:sample M 个 2秒片段。)

不同点:
4. 数据类型和格式
5. 根据数据类型对Qformer结构做了些调整
6. 图像encoder 用的是 Blip-2 中专门做图像语义

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值