Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

最新推荐文章于 2024-09-03 07:25:00 发布

PaperWeekly

最新推荐文章于 2024-09-03 07:25:00 发布

阅读量2.7k

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/130256472

版权

LLaVA是一个展示接近GPT-4水平的多模态语言和视觉助手，擅长视觉聊天和科学问答。在30张未见图像的多类型指令评估中，相对GPT-4得分达到85.1%。项目已开源，包括数据、论文、代码和模型。

摘要由CSDN通过智能技术生成

©Paperweekly 原创 · 作者 | Chunyuan Li

使用 GPT-4 进行视觉指令学习！Visual Instruction Tuning with GPT-4!

▲ Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses

我们分享了 LLaVA (Language-and-Vision Assistant)，一款展示了某些近似多模态 GPT-4 水平能力的语言和视觉助手：

视觉聊天 (Visual Chat)：相对得分达到了 GPT-4 的 85%
多模态推理任务的科学问答 (Science QA)：达到了新的 SoTA 92.53%，超过了之前的最先进的方法：多模态思维链技术 (multimodal chain-of-thoughts)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PaperWeekly

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

LLaVA:visual instruction tuning

liguandong

10-27

2511

主要目标是有效利用预训练的llm和视觉模型的能力，llama作为llm，预训练的clip视觉编码器ViT-L/14，提供Zv，用一个简单的线性层来将图像特征连接到单词embedding空间，用一个可训练的投影矩阵w将Zv转换为语言embedding标记Hq，其维度与语言模型中的单词embedding空间相同。对应于LLaVA的两个训练阶段，LLaVA的训练数据也分为两部分：预训练阶段的数据和微调阶段的数据。llava当时的GPT4还不支持图像输入，因此这样的测评也不完全能够展示GPT4的能力。

多模态大模型升级：LLaVA→LLaVA-1.5，MiniGPT4→MiniGPT5

pku_langzi的博客

10-15

1637

LLaVA, MiniGPT4的改进版本：LLaVA-1.5, MiniGPT5。

参与评论您还未登录，请先登录后发表或查看评论

【多模态】28、LLaVA 第一版 | Visual Instruction Tuning 多模态模型的指令微调

呆呆的猫的博客

02-29

3781

本文主要介绍 LLaVA 第一版模型

多模态基础模型：一文读懂LLAVA系列模型

AIGCmagic的博客

08-25

2322

LLAVA系列多模态大模型以其强大的表现力和广泛的应用前景，吸引了众多科研人员和企业关注。本文将为您带来LLAVA多模态大模型系列的深度解读，从原始论文中抽丝剥茧，带您领略这一前沿技术的魅力。

LLaVA: Visual Instruction Tuning

weixin_44966641的博客

02-27

2031

2023 年上半年，从 GPT4 接口机造训练数据来训练自己的 LLM 已成为基本操作。而在没有 GPT4V 的时代，多模态的 instruction following 数据构造却一直是个难题。LLaVA 提出了一种结合图像的各种标注信息，使用 text-only 的 GPT4 来机造多模态 instruction following 数据的方法，并首次使用多模态的 instruction following 数据训练出了 LMM。

Visual Instruction Tuning----视觉指令调整

Mars_prime的博客

01-15

1228

使用机器生成的指令跟踪数据进行指令调优大型语言模型 (LLM) 已被证明可以提高新任务的零样本能力，但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 来生成多模态语言图像指令跟踪数据。通过对此类生成数据进行指令调整，我们推出了 LLaVA：大型语言和视觉助手，这是一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。为了促进未来视觉指令跟随的研究，我们构建了两个具有多样化且具有挑战性的面向应用的任务的评估基准。

Visual Instruction Tuning 教程

最新发布

gitblog_00701的博客

09-03

296

Visual Instruction Tuning 教程 Visual-Instruction-TuningSVIT: Scaling up Visual Instruction Tuning项目地址:https://gitcode.com/gh_mirrors/vi/Visual-Instruction-Tuning 本教程旨在指导您如何高效地探索和应用Visual Instruction T...

【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model

发现问题，并解决问题，批判性思维

05-26

966

新加坡-南洋理工大学发的paper，2023年12月我们还是从十大问题分析这篇论文，但由于是综述，可能没有实验环节详细的部分。 # 1. 论文试图解决什么问题 - 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述，Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力 - 文章介绍传统CV局限性（需要针对不同任务训练不同模型，缺乏交互能力），如下图左侧。- 文章从三方面介绍Visual Instruction Tuning的发展过程：单语言

多模态大模型综述: LLaVA, MiniGPT4

pku_langzi的博客

06-17

5874

题目: Visual Instruction Tuning机构：微软论文:任务: 视觉指令微调（具备对话，推理的能力，rather than 图像描述）特点: 利用GPT4做数据生成，以及评测，视觉projection不想BLIP2一样是Q-Former，而是一个简单的映射层方法: LLM选择LLaMA，然后做视觉指令微调前置相关工作：GPT4, LLaMA, BLIP2, OpenFlamingo同期相似性工作：InstructBLIP。

多模态大模型 - LLaVA系列模型

yiyele的博客

07-08

1066

本文主要介绍了LLaVA系列的多模态大模型，详细的介绍了每个版本的优化思路及方法。

NIPS2024论文《Visual instruction tuning》LLaVA视觉大模型技术介绍

qq_37261357的博客

04-03

1804

现在的大型语言模型（LLM）在语言对话与问答等任务中表现出优秀的性能。但是，对于多模态的输入（例如一张图片以及一个关于这张图片的问题），大型语言模型就难以应对，尤其是考察其推理能力时。

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

gzq0723的博客

04-11

294

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G大模型指令微调水平在不断地提高，这次微软用上了 GPT-4。转自《机器之心》我们知道，从谷歌 T5 模型到 OpenAI GPT 系列大模型，大语言模型（LLMs）已经展现出了令人印象深刻的泛化能力，比如上下文学习和思维链推理。同时为了使得 LL...

多模态 ——LLaVA 集成先进图像理解与自然语言交互GPT-4的大模型

知来者逆的博客

04-11

1812

提出了一种大型模型 LLaVA，它使用 GPT-4 生成多模态语言图像指令跟随数据，并利用该数据将视觉和语言理解融为一体。初步实验表明，LLaVA 展示了出色的多模态聊天能力，在合成多模态指令上的表现优于 GPT-4。在科学质量保证中进行微调时，LLaVA 和 GPT-4 的协同作用实现了新的一流准确性。

LLaVA项目使用说明（一）运行Demo

qq_58400270的博客

12-18

5881

根据LLaVA项目配置运行环境及运行Demo时遇到的一些问题。

Visual chatgpt多模态大模型的前菜

liangwqi的博客

03-12

5651

visual chat将会是多模态大模型一个过渡态，Gpt4以及他的后代一定会用集成电路的模式取代这个分立元器件组成的通用多模态模式。但是它的很多思路是值得我们学习的。

LLaVA 开源项目使用指南

gitblog_00797的博客

08-08

1011

LLaVA 开源项目使用指南 LLaVA[NeurIPS'23 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built towards GPT-4V level capabilities.项目地址:https://gitcode.com/gh_mirrors/ll/LLaVA 项目介绍 ...

第一节 LLaVA模型安装、预测、训练详细教程

热门推荐

weixin_38252409的博客

11-02

1万+

本博客介绍LLava1.5多模态大模型的安装教程、训练教程、预测教程，也会涉及到hugging face使用与wandb使用。

LLaVA 简介：一种多模式 AI 模型

RA AI衍生者训练营的博客

08-21

1205

LLaVA 是一个端到端训练的大型多模态模型，旨在根据视觉输入（图像）和文本指令理解和生成内容。它结合了视觉编码器和语言模型的功能来处理和响应多模态输入。图 1：LLaVA 工作原理的示例。

多模态大语言模型 LlaVA 论文解读：Visual Instruction Tuning

qq_40491305的博客

06-26

7112

Alpaca [43]、Vicuna [45]、GPT-4-LLM [34]利用各种机器生成的高质量指令跟随样本来提高 LLM 的对齐能力，与专有 LLM 相比，报告了令人印象深刻的性能。重要的是，这行工作是纯文本的。Alpaca [43]、Vicuna [45]、GPT-4-LLM [34]利用各种机器生成的高质量指令跟随样本来提高 LLM 的对齐能力，与专有 LLM 相比，报告了令人印象深刻的性能。同时在使用ChatGPT和GPT-4时，作者发现GPT-4生成的指令遵循数据质量更高，比如空间推理能力。

error response from daemon: unknown instruction: entrypoint["./tp-web"]

04-28

这个错误提示来自于Docker容器运行的过程中出现了问题。其中的错误提示是“unknown instruction: entrypoint["./tp-web"]”。据查，这个错误提示可能是由于容器构建时没有正确地指定入口点而导致的。入口点是Docker容器中用于执行应用程序的第一条指令。它通常是一个可执行文件的名称，可以通过指定一个Dockerfile文件中的ENTRYPOINT命令来设置。要解决这个错误，您需要检查一下你的Dockerfile文件是否正确地设置了入口点。请确保您的ENTRYPOINT命令是正确的，并指向正确的可执行文件。如果您已经正确地设置了入口点，但仍然遇到这个错误，请检查您的Docker版本是否过低。一些老版本的Docker可能不支持某些指令，这可能导致出现未知的指令错误。在这种情况下，请尝试升级Docker的版本或者使用其他指定入口点的方法，例如CMD指令。总之，这个错误提示提示您的Docker容器中的入口点出了问题。您需要检查入口点的设置是否正确，并升级Docker的版本，以确保您的容器能够正确运行。