arXiv2024.8.6 | LLaVA-OneVision:Easy Visual Task Transfer

Comment: Project Homepage: https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

论文标题:LLaVA-OneVision:Easy Visual Task Transfer

论文地址:https://arxiv.org/abs/2408.03326

GitHub:https://llava-vl.github.io/blog/llava-onevision

一、模型架构

目标:

其中Xv是视觉特征,Xq<i, Xa<i是前面对话中的指令和答案token

Visual Representations

对于高分辨率的图像,采用Higher AnyRes with Biliear Interpolation,高分辨率会带来性能提升,但是也会导致模型的token数激增,因此做了一个取舍:To strike a balance of performance and cost, we observe that the scaling of resolution is more effective than that of token numbers, and recommend an AnyRes strategy with pooling.

AnyRes策略:将图像切分为a*b个crop,每个crop大小一致,假设每个crop有T个token,视觉token数为L=(a*b+1)*T,其中的+1是原始图像resize后的整体image图。为缩减token数,设置一个阈值t,超过阈值使用双线性插值进行缩减:

不同策略:

单图:使用较大的spatila configuration (a,b) ,使用长序列表示高清晰度的图像,促进图像到视频理解更平滑的能力转移(因为视频是帧,需要处理长序列)

多图:考虑基本分辨率,消减高分辨率图对其多次裁剪。

视频:每帧采用基本分辨率,并采用双线性插值减少token数量,从而允许通过减少每帧的token考虑加入更多的帧。

二、数据

1、High-Quality Knowledge

通过优先考虑数据质量,可以最大限度地提高计算效率。从三个方面考虑:

“Re-Captioned Detailed Description Data”:使用LaVA-NeXT-34B为COCO118K,BLIP558K,CC3M,一共3.5M,

“Document / OCR Data” :利用了 UReader 数据集中的文本阅读子集,总计 100K。使用SynDOG EN/CN 。总共1.1M。

“Chinese and Language Data.” :使用原始的ShareGPT4V图像,并利用GPT-4V API生成92K image caption数据,并从 Evo-Instruct 数据集中收集了 143K。

几乎所有(占99.8%)的高质量知识数据都是合成的。

2、Visual Instruction Tuning Data

Data Collection and Curation. 从三个角度考虑:vision, instruction, and response.

Vision input:single-image,mutil-image,video

Language Instruction:  通用QA、通用OCR,文档/图表/屏幕,数学推理,语言。

Language Response: 分为free-form和fixed-form,free-form是使用gemini/GPT4V-o生成(同时保留原始答案,怎么组织?),fixed-form是收集的数据集(并手动更正)。将指令分为两类:单图场景 + 所有视觉场景,

单图数据:

视觉场景数据:

三、训练策略

三个阶段:“Language-Image Alignment” 、“High-Quality Knowledge Learning” 、“Visual Instruction Tuning” 。

四、实验

 

1、Single-Image Benchmarks

Chart, Diagram, and Document Understanding:AI2D, ChartQA , DocVQA , and InfoVQA

Perception and Multi-discipline Reasoning:MME, MMBench, and MMVet, MathVerse, MathVista , and MMM

Real-world Understanding and Visual Chat:RealworldQA , Vibe-Eval , MM-LiveBench, and LLaVA-Bench-Wilder

2、Multi-Image Benchmarks

域内与域外的评估

五、任务迁移涌现能力

1、Joint understanding of diagram and chart (Transfer from single-image to multi-image)

2、GUI for multi-modal agent (Transfer from single-image and multi-image)

3、Set-of-mark Prompting (Transfer from single-image task composition).

set-of-marks (SoM) reasoning

4、Image-to-Video Editing Instruction (Transfer from single-image and video)

5、Video-to-Video Difference (Transfer from multi-image and video)

6、Multi-camera Video Understanding in Self-driving (Transfer from single-image and multiimage to video)

7、Composed Sub-video Understanding (Transfer from multi-image to video)

8、Visual prompting in video (Task transfer from single-image to video).

9、Visual Referring in Image in Video Understanding.

llava系列依旧是简单、高效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值