一、概述
1、是什么
是一个多模态大模型,论文全称《How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites》,主要还是图文问答等,不能完成图像生成、语音输入输出。也是标准的两阶段训练。论文称,InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型,特别是在与 OCR 相关的数据集中。
2、亮点
如官方下图,分为三个方面。
(1)更强视觉编码器:为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,提高了其视觉理解能力,并使其可以在不同的LLM中迁移和重用。
(2)动态高分辨率:根据输入图像的长宽比和分辨率,将图像划分为1到40个448×448像素的图块,最高支持4K分辨率输入。
(3)高质量的双语数据集:收集了高质量的双语数据集,涵盖常见场景、文档