【大模型系列】LanguageBind(ICLR2024.01)

在这里插入图片描述

核心工作:
● 提出一个LanguageBind框架,将多种模态都映射到一个共享特征空间,实现多模态语义对齐;
● 开源了一个VIDAL-10M数据集,包含Video、Infrared、Depth、Audio、Language;短视频。

1 LanguageBind总结(省流版)

1.1 LanguageBind是什么?

LanguageBind是北大袁粒团队提出的一个多模态语义对其的方法,通过将各种模态(图像、视频、红外、音频、深度)映射到一个共享的特征空间,与文本实现对齐。同时该论文还开源了一个VIDAL-10M的数据集,包含多种模态(≥3)的数据。

1.2 LanguageBind能干什么?

与CLIP类似,CLIP只对齐了图像和文本,而LanguageBind对齐了更多的模态,可以看成是CLIP的加强版。

1.2.1 Zero-shot X-Language classification

零样本分类,即根据文本对图像、视频、音频等进行分类。

1.2.2 Zero-shot X-Language retrieval

零样本检索,即根据文本检索图像、视频、音频等;

2 Method

在这里插入图片描述
LanguageBind的三个部分:

  • Multi-modal encoders: LoRA微调
    • 24-layers、1024 dimension ViT/14,OpenCLIP-Large初始化;
    • Depth和infra数据在维度上复制3次,当作RGB数据处理
    • Audio数据被转换成10s音频数据的频谱图,最后在channel复制3次,少于10s用0补全,超过10s做裁剪;
  • Language encoder: 参数冻结
    • 12-transformers、768-dimension的OpenCLIP
    • 文本tokenizer:BPE tokenizer
  • Multi-modal joint learning:各模态与text进行contrastive learnin

3 VIDAL-10M

在这里插入图片描述
VIDAL-10M数据集:

  • video-text pairs:3M(Youtube shorts:根据搜索词下载、过滤)
  • audio-text pairs:1M(Freesound:根据搜索词下载、过滤)
  • infrared-text pairs:3M(sRGB-TIR:生成视频关键帧对应的红外数据)
  • depth-text pairs:3M(GLPN:生成视频关键帧对应的深度数据)

4 训练细节

  • epoch:LoRA,3epoch
  • batchsize:1024
  • Rank of LoRA:2(增大性能反而会下降)
  • temperature for loss:0.07
  • masked ratio:0.5

参考资料

[1] 自然语言模型(LM)之Tokenizer的介绍(1)–BPE

  • 16
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值