llava 1.6笔记

llava 1.6的论文和代码都没有发布,只有技术博客,这次看看llava 1.6在llava和llava 1.5的基础上做了哪些改进。
主要改进的效果包括:通过将输入图像分辨率提高到原来的4倍,模型能够捕捉更多的视觉细节,并支持三种宽高比(最大分辨率为672x672、336x1344、1344x336)。改进后的视觉指令微调数据混合,使模型具备更好的视觉推理和OCR能力。模型在多种场景下的视觉对话能力也得到了提升,涵盖了更多应用领域,同时增强了世界知识和逻辑推理能力。此外,模型还可以通过 SGLang 实现高效的部署和推理。
一、改进
1、输入分辨率的提高

在这里插入图片描述

输入分辨率提高4倍,支持672x672, 336x1344, 1344x336三种比例的图片。设计了AnyRes技术(上一篇llava 1.5的笔记有介绍),可以将图片切分成{2×2,1×{2,3,4},{2,3,4}×1}{2×2,1×{2,3,4},{2,3,4}×1}多种形式。
2×2:表示将图像分割成 2 行 2 列的网格,也就是将图像分成 4 个小块。这种网格配置可以用于处理正方形或接近正方形的图像。
1×{2,3,4}:这里的 1 表示图像保持一行,但列的数量可以是 2、3 或 4,即可以将图像水平分割成 2、3 或 4 个小块。这种配置适用于宽度较大的横向图像。
{2,3,4}×1:这里的配置则是将图像垂直分割为 2、3 或 4 行,而列数保持为 1,也就是说每个垂直的切片是一个完整的纵列。适合高度较大的竖向图像。
2、改进数据配比
通过调整指令数据集配备,提高了模型的视觉推理和OCR能力。
高质量用户数据的标准:指令数据的多样性和回答的有效行。因此模型考虑2个数据源:现有的GPT-V数据,包括LAION-GPT-V和ShareGPT-4V,都是chatgpt系列模型生成的数据集;还有llava demo收集的用户真实的数据,对隐私数据和有害数据进行了过滤。
因为TextCaps和TextVQA使用了相同的图像,为了更好地评估模型在 TextVQA 任务中的 OCR能力。移除了TextCaps 数据集,并使用DocVQA 和 SynDog-EN 替换 TextCaps。受到Qwen-VL-7B-Chat 模型的启发,加入ChartQA、DVQA 和 AI2D 数据集来提高模型对图表和示意图的理解能力。
总的来说,就是优化 OCR 能力、通过引入新的数据集提高模型对图表和示意图的理解力。
3、扩展语言模型
就是换成了更多种类的语言模型和更大的语言模型,没什么好说的。
二、总结
感觉llava 1.5和llava 1.6的技术报告和代码有点乱,代码和技术改进都掺杂在一起了。总的来说就是提高了图片输入的分辨率,换了一部分数据,换了更大的模型都能提高模型能力,其他改进不大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值