LLaMA模型指令微调字节跳动多模态视频大模型 Valley 论文详解

最新推荐文章于 2024-07-22 18:13:20 发布

野生的大熊

最新推荐文章于 2024-07-22 18:13:20 发布

阅读量143

点赞数

文章标签：人工智能 javascript 开发语言安全 java

本文链接：https://blog.csdn.net/2301_78834737/article/details/131753948

版权

Valley是字节跳动基于LLaMA的视频多模态指令微调模型，通过时空池化模块处理多帧视频，使用CLIP的ViT-L/14作为视觉编码器。它引入了多模态指令跟踪数据集，用于视频问答、描述等任务，旨在提升视频理解能力。模型经过预训练和微调，展现出在视频相关任务中的应用潜力。

摘要由CSDN通过智能技术生成

近期基于LLaMA微调的模型有很多，Alpaca，Vicuna都是基于ChatGPT等数据进行文本场景指令微调，LLaVA也使用图文对数据进行了图文场景多模态能力的扩展（这几个模型往期文章都有涉及，不清楚/感兴趣的可以看）。

而本文提到的Valley则是字节发布的视频场景多模态指令微调LLaMA模型。

其中这几个指令微调版本的模型都大差不差，主要还是数据与训练的差异。本文描述Valley当然对标的是其类似模型LLaVA，原文introduction部分翻译修改后如下：

在Valley中，我们遵循 LLaVA 的先预训练然后指令调整的流程，采用一个简单的投影模块作为视频、图像和语言模式之间的桥梁。我们采用 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作为视觉编码器（与LLaVA一致），然后提出一种时空池化操作来统一视频和图像输入的视觉编码（模型差异点）。通过更新投影模块进行预训练，以使统一的视觉嵌入与 LLM 保持一致，其中 Stable-Vicuna (Chiang et al., 2023) 由于其多语言能力而成为选择的 LLM。此外，我们引入了从各种视频任务中收集的多模态指令跟踪数据集，包括视频问答、长描述、随意关系推理和动作识别。经过指令微调，最终提出了我们的视频理解谷多模态基础模型。作为人工智能助手，我们预计Valley将在各种视频相关任务中得到广泛的应用，并帮助用户以类似于在现实世界中与人聊天的方式更好地理解和解释复杂的视频。

结合论文内容，我对Valley的贡献作了概括：

模型<

最低0.47元/天解锁文章

野生的大熊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LLaMA模型指令微调字节跳动多模态视频大模型 Valley 论文详解

近期基于LLaMA微调的模型有很多，Alpaca，Vicuna都是基于ChatGPT等数据进行文本场景指令微调，LLaVA也使用图文对数据进行了图文场景多模态能力的扩展（这几个模型往期文章都有涉及，不清楚/感兴趣的可以看）。而本文提到的Valley则是字节发布的。其中这几个指令微调版本的模型都大差不差，主要还是数据与训练的差异。
复制链接

扫一扫