在线教程 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVision 正式上线!

大语言模型(Large Language Model,简称 LLM)与多模态大模型(Large Multimodal Model,简称 LMM)是人工智能领域的两个核心发展方向。 LLM 主要致力于处理和生成文本数据,而 LMM 则更进一步,它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今,LLM 已经相对成熟,ChatGPT 等在文字理解方面已经「对答如流」,人们开始将目光转移到多模态数据的理解上,令模型能够「读图、看视频」。

近期,来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型,该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示,LLaVA-OneVision-72B 在大多数基准上优于 GPT-4V 和 GPT-4o,如下图所示:
在这里插入图片描述

LLaVA-OneVision 在视频基准测试中的性能表现

在这里插入图片描述

LLaVA-OneVision 在多图像基准测试中的性能表现

HyperAI超神经教程版块现已上线「LLaVA-OneVision 多模态全能视觉模型 Demo」, 用户只需一键克隆启动,即可轻松处理多样化的视觉任务,无论是静态图像的分析还是动态视频的解析,它都能够提供高质量的输出。

教程地址:

https://go.hyper.ai/PYD2v

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,选择「LLaVA-OneVision 多模态全能视觉模型 Demo」,点击「在线运行此教程」。
    在这里插入图片描述
    在这里插入图片描述

  2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
    在这里插入图片描述

  3. 点击右下角「下一步:选择算力」。
    在这里插入图片描述

  4. 页面跳转后,选择「NVIDIA RTX A6000」以及 「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_QZy7
在这里插入图片描述

  1. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。因模型过大,容器显示运行中后,需要稍微等待 1 分钟左右的时间再打开 API 地址,否则会显示 BadGateway。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

效果演示

  1. 打开 Demo 界面后,我们先来测试一下它对于图片的理解能力,在红框区域上传 3 张不同情绪的照片,并输入我们的问题「Which image expresses the emotion of fear?」,可以看到它准确的回答了我们的问题,并且提供了图片的描述 (The first image, which shows a woman with her hands on her head and an expression of shock or fear, expresses the emotion of fear)。
    在这里插入图片描述
图 1 为害怕;图 2 为开心;图 3 为伤心

在这里插入图片描述
在这里插入图片描述2. 它对于视频的理解能力也是十分优秀的,上传一段奥运会跑步比赛的精彩合集视频,询问「What is this video about?」,可以看到它能够准确的回答出比赛的项目并表述视频场景和细节,例如运动员的肤色,情绪以及体育场周围的赞助商标。
在这里插入图片描述

回答翻译:

这段视频似乎是田径赛事的剪辑,主要为 100 米短跑。它展示了运动员们在起跑器上准备比赛,其中一位运动员穿着黄色和绿色的服装,这暗示他可能代表牙买加,因为这些是牙买加国旗的颜色。视频捕捉了运动员们准备起跑时的紧张和专注,他们从起跑器上推起的起始动作,以及随后在跑道上的冲刺。运动员们穿着表明他们国家队或赞助商的制服,体育场周围可以看到各种赞助商的标志,如 TOYOTA 和 TDK。视频还包括对运动员脸部的特写,展示了他们的专注和决心。最后的画面显示运动员们全力冲刺,其中一位运动员领先于其他选手,暗示着一场竞争激烈的比赛正在进行

### LLaVA-OneVision IT项目概述 LLaVA-OneVision 是一种新型的开源大型语言模型LMM),专注于提升视觉任务传输的能力,在单图像、多图像和视频场景中表现卓越[^3]。此模型不仅继承了 LLAVA-NeXT 系列的技术优势,而且通过更大规模的数据集和更先进的算法进行了优化训练。 #### 技术文档要点 技术文档详细介绍了如何利用大规模数据集和强化学习方法来提高模型的表现力: - **跨模态迁移**:即使只经过图像训练,LLaVA-OneVision 展现出了强大的零样本视频任务处理能力,这主要归功于 AnyRes 设计的支持任意长度输入的功能[^4]。 - **性能对比**:在某些选定的标准测试集中,该模型凭借其高效的扩展策略达到了与 GPT-4V 相当的成绩,证明了成本效益极高的发展路径的有效性。 - **消融研究**:通过对不同因素如架构选择、视觉表征方式及训练技巧的研究,揭示了哪些要素对于构建高性能视觉理解系统最为重要。 ```python import torch from transformers import AutoModelForVision2Seq, AutoFeatureExtractor def load_model(model_name="llava-onevision"): extractor = AutoFeatureExtractor.from_pretrained(model_name) model = AutoModelForVision2Seq.from_pretrained(model_name) return model, extractor model, feature_extractor = load_model() print("Model loaded successfully.") ``` #### 开源库特性 GitHub 上托管的 LLaVA-OneVision 仓库提供了完整的实现细节和技术支持材料,方便开发者快速上手并贡献代码。以下是该项目的一些亮点功能: - 支持多种类型的媒体文件作为输入; - 提供预训练权重以便即时部署应用; - 文档详尽,附带教程帮助新手入门; - 社区活跃度高,定期更新维护版本;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值