视频大语言模型调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》解读

AI菜鸟

已于 2024-04-03 15:45:31 修改

阅读量1.7k

点赞数 17

分类专栏：大语言模型文献调研文章标签：音视频语言模型 llama

于 2024-04-03 11:13:48 首次发布

本文链接：https://blog.csdn.net/qq_37261357/article/details/137337039

版权

本文介绍了阿里达摩院的Video-LLaMA，一个针对视频理解的多模态大语言模型，通过创新结构和训练方法，如VideoQ-former和AudioQ-former，增强了模型在捕捉视觉时序变化和整合音频-视觉信号方面的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是关于论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》的简要介绍。Video-LLaMA是阿里达摩院的一个多模态大语言模型产品，可以理解视频中视觉和听觉内容。和很多多模态大语言模型类似，模型结构和训练方式中规中矩，但是针对视频这种信息量丰富的数据类型，作者提出了一些创意。

有关本专栏的更多内容，请参考大语言模型文献调研专栏目录

训练方式：和很多多模态大语言模型一样，Video-LLaMA冻结预训练视觉和音频编码器，冻结的LLMs，进行跨模态训练。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐，作者首先在海量视频/图像标题对上训练Video-LLaMA，然后使用质量更高但数量适中的视觉指导数据集模型。

1. 论文的基本信息

1.1 论文资源

论文链接：https://arxiv.org/pdf/2306.02858.pdf

代码链接：https://github.com/DAMO-NLP-SG/Video-LLaMA

展示样例：https://www.youtube.com/watch?v=RDNYs3Rswhc&feature=youtu.be

论文引用：

@article{zhang2023video,
  title={Video-llama: An instruction-tuned audio-visual language model for video understanding},
  author={Zhang, Hang and Li, Xin and Bing, Lidong},
  journal={arXiv preprint arXiv:2306.02858},
  year={2023}
}