字节Seed团队发布Seed1.5-VL，用仅20B活跃参数在60个主流测试中狂揽38项第一！

最新推荐文章于 2025-05-15 07:00:00 发布

zenRRan

最新推荐文章于 2025-05-15 07:00:00 发布

阅读量607

点赞数 10

本文链接：https://blog.csdn.net/qq_27590277/article/details/147937770

版权

论文：Seed1.5-VL Technical Report
链接：https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf

VLM通过整合视觉和文本模态，推动了多模态推理、图像编辑、GUI代理、自动驾驶和机器人等领域的发展。尽管取得了显著进展，但现有的VLM在处理需要3D空间理解、对象计数、视觉推理和交互式游戏等任务时仍存在不足。与LLM相比，VLM缺乏高质量的视觉-语言标注数据，尤其是针对低级感知现象的数据。

当各家还在卷千亿参数时，字节悄悄放了个大招——仅用200亿活跃参数的Seed1.5-VL，在60个主流测试中狂揽38项第一！这个模型的视觉编码器仅有532M参数，却能在零样本分类任务中硬刚17.5B参数的EVA-CLIP。牛~

Seed1.5-VL由三个主要部分组成：视觉编码器（Seed-ViT）、MLP适配器和LLM（200亿激活参数）。

视觉编码器（Seed-ViT）：基于Vision Transformer（ViT），包含5.32亿参数，支持动态图像分辨率，并使用2D RoPE进行位置编码。
视频编码：采用动态帧-分辨率采样策略，根据内容复杂性和任务需求调整采样频率和分辨率。

使用了3万亿个高质量的多模态标注，涵盖图像、视频、文本和人机交互数据。

预训练阶段

监督微调（SFT）
使用高质量的指令数据对模型进行微调，提升指令遵循和推理能力。

强化学习
结合人类反馈和可验证奖励信号，进一步提升模型的对齐能力和推理能力。

混合强化学习
结合人类反馈和可验证奖励信号进行训练。

迭代更新
通过拒绝采样微调，逐步提升模型性能。

大规模预训练

后训练框架
使用verl框架进行混合强化学习，支持高效的actor和critic更新。

公共基准测试

多模态代理

内部基准测试
内部基准测试旨在评估模型在中文任务、核心能力以及OOD任务上的表现。与现有模型比，Seed1.5-VL在多个内部基准测试中表现出色，特别是在OOD任务上。关于泛化能力，通过内部聊天机器人平台评估模型在复杂真实场景中的表现。

比如在处理复杂视觉场景时，Seed1.5-VL在对象计数、图像差异识别和空间关系理解方面存在不足；在需要组合搜索和复杂逻辑推理的任务上，Seed1.5-VL表现不佳；在3D对象操作和投影推理任务上，Seed1.5-VL存在挑战；以及模型有时会根据语言模型的先验知识生成错误的推理结果。

但是总的来说，Seed1.5-VL是一个强大的视觉-语言基础模型，通过创新的架构和训练策略，在多模态任务上取得了显著进展。尽管存在一些局限性，但其在视觉推理、文档理解、视频理解和GUI代理等任务上的表现令人印象深刻！

期待Seed的下一个工作啊~