字节Seed团队发布Seed1.5-VL,用仅20B活跃参数在60个主流测试中狂揽38项第一!

论文:Seed1.5-VL Technical Report
链接:https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf

VLM通过整合视觉和文本模态,推动了多模态推理、图像编辑、GUI代理、自动驾驶和机器人等领域的发展。尽管取得了显著进展,但现有的VLM在处理需要3D空间理解、对象计数、视觉推理和交互式游戏等任务时仍存在不足。与LLM相比,VLM缺乏高质量的视觉-语言标注数据,尤其是针对低级感知现象的数据。

当各家还在卷千亿参数时,字节悄悄放了个大招——仅用200亿活跃参数的Seed1.5-VL,在60个主流测试中狂揽38项第一!这个模型的视觉编码器仅有532M参数,却能在零样本分类任务中硬刚17.5B参数的EVA-CLIP。牛~

Seed1.5-VL架构

Seed1.5-VL由三个主要部分组成:视觉编码器(Seed-ViT)、MLP适配器和LLM(200亿激活参数)。

  • 视觉编码器(Seed-ViT):基于Vision Transformer(ViT),包含5.32亿参数,支持动态图像分辨率,并使用2D RoPE进行位置编码。

  • 视频编码:采用动态帧-分辨率采样策略,根据内容复杂性和任务需求调整采样频率和分辨率。

预训练

使用了3万亿个高质量的多模态标注,涵盖图像、视频、文本和人机交互数据。

  • 通用图像-文本对:通过过滤技术处理噪声和类别不平衡。

  • OCR能力:使用大规模的标注和合成数据,涵盖文档、场景文本、表格、图表等。

  • 视觉定位和计数:结合边界框、中心点和计数数据进行训练。

  • 3D空间理解:通过相对深度排序、绝对深度估计和3D定位任务进行训练。

  • 视频理解:涵盖视频字幕、视频问答、动作识别等任务。

  • STEM领域:包含数学、物理、化学和生物问题解决数据。

  • GUI数据:涵盖Web、应用和桌面环境的用户界面数据。

预训练阶段

  • 阶段0:仅训练MLP适配器,冻结视觉编码器和语言模型。

  • 阶段1:训练所有参数,主要使用图像-文本、视觉定位和OCR数据。

  • 阶段2:增加视频理解、编码和3D空间理解等新任务的数据,增加序列长度。

后训练

监督微调(SFT)
使用高质量的指令数据对模型进行微调,提升指令遵循和推理能力。

强化学习
结合人类反馈和可验证奖励信号,进一步提升模型的对齐能力和推理能力。

  • 偏好数据:通过人类标注和合成数据收集偏好数据。

  • 奖励模型:使用VLM作为奖励模型,直接输出偏好指示。

  • 数据筛选:通过多阶段数据筛选流程,确保数据质量和多样性。

  • 可验证奖励信号:在数学推理、视觉感知和逻辑推理任务中使用可验证的奖励信号。

混合强化学习
结合人类反馈和可验证奖励信号进行训练。

迭代更新
通过拒绝采样微调,逐步提升模型性能。

训练基础设施

大规模预训练

  • 混合并行策略:针对视觉编码器和语言模型的不同特点,采用不同的并行策略。

  • 工作负载平衡:通过贪心算法重新分配视觉数据,平衡GPU工作负载。

  • 并行感知数据加载:减少多模态数据的I/O开销。

  • 容错机制:使用MegaScale框架实现容错,确保训练的稳定性。

后训练框架
使用verl框架进行混合强化学习,支持高效的actor和critic更新。

评估

公共基准测试

  • 视觉编码器作为零样本分类器:Seed-ViT在多个零样本分类基准上表现出色,与参数量更大的模型相当。

  • 视觉任务评估:在多模态推理、文档理解、视觉定位和计数等任务上,Seed1.5-VL取得了SOTA或接近SOTA的结果。

  • 视频任务评估:在短视频、长视频、流视频、视频推理和视频定位任务上,Seed1.5-VL表现出色。

多模态代理

  • GUI代理:在多个GUI任务上,Seed1.5-VL显著优于现有模型。

  • 游戏代理:在多个游戏中,Seed1.5-VL展现出强大的推理和决策能力。

内部基准测试
内部基准测试旨在评估模型在中文任务、核心能力以及OOD任务上的表现。与现有模型比,Seed1.5-VL在多个内部基准测试中表现出色,特别是在OOD任务上。关于泛化能力,通过内部聊天机器人平台评估模型在复杂真实场景中的表现。

局限性

比如在处理复杂视觉场景时,Seed1.5-VL在对象计数、图像差异识别和空间关系理解方面存在不足;在需要组合搜索和复杂逻辑推理的任务上,Seed1.5-VL表现不佳;在3D对象操作和投影推理任务上,Seed1.5-VL存在挑战;以及模型有时会根据语言模型的先验知识生成错误的推理结果。

但是总的来说,Seed1.5-VL是一个强大的视觉-语言基础模型,通过创新的架构和训练策略,在多模态任务上取得了显著进展。尽管存在一些局限性,但其在视觉推理、文档理解、视频理解和GUI代理等任务上的表现令人印象深刻!

期待Seed的下一个工作啊~


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

### JavaScript `innerHTML` 属性详解 #### 一、定义与基本用法 `innerHTML` 是一个非常强大的属性,允许开发者获取或设置 HTML 元素内部的 HTML 或 XML 标记。它不能够读取元素内的现有内容,还可以修改这些内容,甚至完全替换掉旧有的子节点。 对于如下所示的一个简单 HTML 片段: ```html <div id="example"> <p>这是一个段落。</p> </div> ``` 可以通过以下方式访问并更改其内容: ```javascript var divElement = document.getElementById("example"); console.log(divElement.innerHTML); // 输出 "<p>这是一个段落。</p>" divElement.innerHTML += '<span>, 添加一些新文本。</span>'; // 此时 #example 的内容变为:<p>这是一个段落。</p><span>, 添加一些新文本。</span> ``` #### 二、注意事 当使用 `innerHTML` 设置新的内容时需谨慎处理潜在的安全隐患,比如防止跨站脚本攻击 (XSS)[^1]。此外,在频繁更新 DOM 结构时可能会导致性能下降,因为每次调用都会触发重新渲染流程。 为了安全起见,建议在必要情况下才直接操作 `innerHTML`;而对于只需要改变纯文本的情况,则应优先考虑使用其他更合适的 API 如 `textContent` 来代替[^3]。 #### 三、实例展示 这里给出一段完整的代码片段来说明如何利用 `innerHTML` 动态构建列表: ```html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>InnerHTML Example</title> <style> ul { list-style-type:none;padding-left:0;} li{margin-bottom:.5em;background:#f9f9f9;border-radius:4px;padding:.75em;} button{display:block;margin-top:1rem;} </style> </head> <body> <h2>待办事清单</h2> <ul id="todoList"></ul> <input type="text" placeholder="输入新任务..." id="newTaskInput"/> <button onclick="addTodo()">添加任务</button> <script> function addTodo() { const inputField = document.getElementById('newTaskInput'); let inputValue = inputField.value.trim(); if (!inputValue) return; const todoItemHtml = `<li>${inputValue}</li>`; document.getElementById('todoList').innerHTML += todoItemHtml; inputField.value = ''; } </script> </body> </html> ``` 此示例展示了如何创建一个新的待办事条目,并将其追加到现有的无序列表中。每当点击按钮时,就会执行一次 `addTodo()` 函数,从而向页面上增加一条记录。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值