【大模型系列】LanguageBind(ICLR2024.01)

kabuto_hui

于 2024-08-04 20:34:24 发布

阅读量496

点赞数 16

分类专栏：大模型系列论文阅读文章标签：人工智能深度学习大模型

本文链接：https://blog.csdn.net/kabuto_hui/article/details/140910999

版权

15 篇文章 2 订阅

订阅专栏

10 篇文章 4 订阅

订阅专栏

在这里插入图片描述

核心工作：
● 提出一个LanguageBind框架，将多种模态都映射到一个共享特征空间，实现多模态语义对齐；
● 开源了一个VIDAL-10M数据集，包含Video、Infrared、Depth、Audio、Language；短视频。

1 LanguageBind总结(省流版)

LanguageBind是北大袁粒团队提出的一个多模态语义对其的方法，通过将各种模态(图像、视频、红外、音频、深度)映射到一个共享的特征空间，与文本实现对齐。同时该论文还开源了一个VIDAL-10M的数据集，包含多种模态(≥3)的数据。

与CLIP类似，CLIP只对齐了图像和文本，而LanguageBind对齐了更多的模态，可以看成是CLIP的加强版。

零样本分类，即根据文本对图像、视频、音频等进行分类。

零样本检索，即根据文本检索图像、视频、音频等；

在这里插入图片描述
LanguageBind的三个部分：

Multi-modal encoders： LoRA微调
- 24-layers、1024 dimension ViT/14，OpenCLIP-Large初始化；
- Depth和infra数据在维度上复制3次，当作RGB数据处理
- Audio数据被转换成10s音频数据的频谱图，最后在channel复制3次，少于10s用0补全，超过10s做裁剪；
Language encoder：参数冻结
- 12-transformers、768-dimension的OpenCLIP
- 文本tokenizer：BPE tokenizer
Multi-modal joint learning：各模态与text进行contrastive learnin

在这里插入图片描述
VIDAL-10M数据集：

关注

专栏目录