llava 1.6笔记

最新推荐文章于 2024-09-28 21:20:29 发布

HanSomeLing

最新推荐文章于 2024-09-28 21:20:29 发布

阅读量223

点赞数 5

文章标签：笔记人工智能

本文链接：https://blog.csdn.net/qq_37261783/article/details/142549349

版权

llava 1.6的论文和代码都没有发布，只有技术博客，这次看看llava 1.6在llava和llava 1.5的基础上做了哪些改进。
主要改进的效果包括：通过将输入图像分辨率提高到原来的4倍，模型能够捕捉更多的视觉细节，并支持三种宽高比（最大分辨率为672x672、336x1344、1344x336）。改进后的视觉指令微调数据混合，使模型具备更好的视觉推理和OCR能力。模型在多种场景下的视觉对话能力也得到了提升，涵盖了更多应用领域，同时增强了世界知识和逻辑推理能力。此外，模型还可以通过 SGLang 实现高效的部署和推理。
一、改进
1、输入分辨率的提高

在这里插入图片描述

输入分辨率提高4倍，支持672x672, 336x1344, 1344x336三种比例的图片。设计了AnyRes技术（上一篇llava 1.5的笔记有介绍），可以将图片切分成{2×2,1×{2,3,4},{2,3,4}×1}{2×2,1×{2,3,4},{2,3,4}×1}多种形式。
2×2：表示将图像分割成 2 行 2 列的网格，也就是将图像分成 4 个小块。这种网格配置可以用于处理正方形或接近正方形的图像。
1×{2,3,4}：这里的 1 表示图像保持一行，但列的数量可以是 2、3 或 4，即可以将图像水平分割成 2、3 或 4 个小块。这种配置适用于宽度较大的横向图像。
{2,3,4}×1：这里的配置则是将图像垂直分割为 2、3 或 4 行，而列数保持为 1，也就是说每个垂直的切片是一个完整的纵列。适合高度较大的竖向图像。
2、改进数据配比
通过调整指令数据集配备，提高了模型的视觉推理和OCR能力。
高质量用户数据的标准：指令数据的多样性和回答的有效行。因此模型考虑2个数据源：现有的GPT-V数据，包括LAION-GPT-V和ShareGPT-4V，都是chatgpt系列模型生成的数据集；还有llava demo收集的用户真实的数据，对隐私数据和有害数据进行了过滤。
因为TextCaps和TextVQA使用了相同的图像，为了更好地评估模型在 TextVQA 任务中的 OCR能力。移除了TextCaps 数据集，并使用DocVQA 和 SynDog-EN 替换 TextCaps。受到Qwen-VL-7B-Chat 模型的启发，加入ChartQA、DVQA 和 AI2D 数据集来提高模型对图表和示意图的理解能力。
总的来说，就是优化 OCR 能力、通过引入新的数据集提高模型对图表和示意图的理解力。
3、扩展语言模型
就是换成了更多种类的语言模型和更大的语言模型，没什么好说的。
二、总结
感觉llava 1.5和llava 1.6的技术报告和代码有点乱，代码和技术改进都掺杂在一起了。总的来说就是提高了图片输入的分辨率，换了一部分数据，换了更大的模型都能提高模型能力，其他改进不大。