大模型：LLaVA-OneVision 震撼登场！字节跳动引领多模态智能新潮流

AI Agent开发

已于 2024-09-12 10:57:26 修改

阅读量741

点赞数 17

文章标签：人工智能大模型 AI大模型 AI 多模态学习

于 2024-08-27 21:16:13 首次发布

本文链接：https://blog.csdn.net/m0_56255097/article/details/141612681

版权

一、引言

在人工智能领域，多模态大模型的发展正迅速改变着我们与计算机交互的方式。LLaVA-OneVision作为一款具有创新性的多模态模型，以其强大的性能和广泛的应用场景引起了广泛关注。本文将深入探讨LLaVA-OneVision的相关信息，包括其背景、特点、评估测试、应用场景以及部署方式等。

二、LLaVA-OneVision的背景与特点

LLaVA-OneVision是由字节跳动联合研发的开放多模态大模型，它具有以下特点：

1. 性能优异： 在单图像、多图像和视频任务中表现出色，是首个能够同时突破开放多模态模型在这三个重要计算机视觉场景性能瓶颈的单模型。

2. 新兴能力涌现： 通过任务迁移能产生新的涌现能力，尤其是从图像到视频的任务迁移，展示出强大的视频理解和跨场景能力。

3. 开源开放： 将生成的多模态指令数据、代码库、模型预训练权重以及视觉聊天示例等资产向公众开放，促进了多模态研究的发展和创新。

三、LLaVA-OneVision的架构与数据处理

1. 架构设计

语言模型：选择Qwen-2作为语言模型，具有强大的语言理解和生成能力。
视觉编码器：采用Siglip作为视觉编码器，能够有效地提取图像和视频的特征。
特征映射层：通过一个2层的MLP将图像特征映射到语言嵌入空间，得到一系列视觉标记。

2. 数据处理

训练数据：包括1177.6K训练样本，涵盖多图像、视频、3D和单图像等场景，14个任务和41个数据集。
数据格式：采用图像文本交错格式，统一不同任务的数据模板，包括单图像、多图像、视频和3D数据。

四、LLaVA-OneVision的评估测试

1. 评估基准

LongBench-Write：更侧重于衡量长输出的质量以及输出的长度。
LongWrite-Ruler：设计为对模型最大输出长度的轻量级压力测试。

2. 评估结果

多图像评估：在多个基准测试中，LLaVA-OneVision的平均多图像性能超过了先前的开源模型。
多帧评估：在视频理解任务中，LLaVA-OneVision与先前基于视频的LMM相比，在许多基准测试中取得了优越的结果。
多视图评估（3D）：在3D感知任务中，LLaVA-OneVision仅接受多视图图像来解释3D世界，在多个基准测试中取得了显著高于其他模型的分数。
单图像评估（多补丁）：通过添加307k的原始LLaVA-NEXT单图像数据，LLaVA-OneVision在单图像任务中保持了性能，并实现了任务从单图像到多图像的有效转移。

五、LLaVA-OneVision的训练技巧

1. 从单图像模型继续训练： 采用现成的LLaVA-NeXT-Image作为基础模型，在其基础上进行多图像指令调优，能更好地利用预训练的视觉语言对齐，继承单图像任务的指令跟随能力，并扩展到多图像、视频和3D场景。

2. 混合训练： 对于交错多图像输入，在训练时尝试将所有图像令牌放在文本前面（in-the-front格式）和保留交错指令（interleaved格式）两种位置选择，并混合这两种策略，结果表明这种混合训练在不同的推理方案中都能带来更高的性能。

3. 训练策略比较： 在视频任务中，研究了图像令牌池化的影响。实验发现，不池化且增加帧数（从10到16）在推理时能提高性能，并且在训练时，较低的学习率和合适的学习率组合对于稳定训练和提高模型性能至关重要。

六、LLaVA-OneVision的应用场景

1. 文学创作： 可根据输入的主题或关键词生成文章、故事或诗歌等文本内容。
2. 学术研究： 帮助研究者快速获取和整理文献信息，辅助撰写论文和报告。
3. 商业应用： 用于生成产品说明书、营销文案、客户服务回复等，提升商业效率。
4. 智能客服： 能够理解用户的问题并提供准确的回答，提高客户满意度。
5. 内容创作： 辅助创作图像、视频等多媒体内容，为创作者提供灵感和素材。
6. 聊天机器人： 与用户进行自然流畅的对话，提供信息和娱乐。

七、LLaVA-OneVision在线体验

体验地址：https://llava-onevision.lmms-lab.com/

八、LLaVA-OneVision部署推理

代码地址： https://github.com/LLaVA-VL/LLaVA-NeXT
模型地址：https://huggingface.co/lmms-lab
模型推理和评估指南：https://github.com/LLaVA-VL/LLaVA-NeXT/blob/main/docs/LLaVA_OneVision.md
arxiv 论文：https://arxiv.org/pdf/2408.03326