本文是关于论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》的简要介绍。Video-LLaMA是阿里达摩院的一个多模态大语言模型产品,可以理解视频中视觉和听觉内容。和很多多模态大语言模型类似,模型结构和训练方式中规中矩,但是针对视频这种信息量丰富的数据类型,作者提出了一些创意。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
模型结构:与以往仅补充LLMs处理视觉或音频信号的作品不同,Video-LLaMA通过应对两个挑战实现视频理解:
(1)捕捉视觉场景中的时序变化:作者提出了Video Q-former,将一个预训练的图像编码器组装到视频编码器中,并引入视频到文本生成任务来学习视频-语言对应关系。
(2)整合音频-视觉信号。利用通用嵌入模型ImageBind作为预训练音频编码器,并在ImageBind之上引入一个Audio Q-former,为LLM模块学习合理的听觉查询嵌入。
训练方式:和很多多模态大语言模型一样,Video-LLaMA冻结预训练视觉和音频编码器,冻结的LLMs,进行跨模态训练。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐,作者首先在海量视频/图像标题对上训练Video-LLaMA,然后使用质量更高但数量适中的视觉指导数据集模型。
1. 论文的基本信息
1.1 论文资源
论文链接:https://arxiv.org/pdf/2306.02858.pdf
代码链接:https://github.com/DAMO-NLP-SG/Video-LLaMA
展示样例:https://www.youtube.com/watch?v=RDNYs3Rswhc&feature=youtu.be
论文引用:
@article{zhang2023video,
title={Video-llama: An instruction-tuned audio-visual language model for video understanding},
author={Zhang, Hang and Li, Xin and Bing, Lidong},
journal={arXiv preprint arXiv:2306.02858},
year={2023}
}
1.2 任务介绍和动机
大型语言模型(LLMs)已经表现出了出色的理解和遵循用户意图和指令的能力。研究人员通常将用户请求和LLMs的响应都以文本形式表达,但是,在许多应用场景下,仅限于文本的人机交互并不足够,真实世界的信息通常是多模态的。
现有工作的不足。为了进一步探索LLMs的潜力,许多研究人员尝试赋予LLMs理解多模态内容的能力。包括使用大量交织