全面超越OpenAI和Claude！字节开源UI-TARS-1.5-7B：7项基准刷新SOTA，一键接管你的电脑和手机

本文链接：https://blog.csdn.net/nulifancuoAI/article/details/147464353

字节跳动豆包大模型团队最新开源的 UI-TARS-1.5-7B，是一款基于视觉-语言模型（VLM）构建的多模态智能体。它不仅能理解屏幕内容，还能像人类一样“思考-行动”，精准操作电脑、手机和浏览器，甚至通关复杂游戏任务，被开发者称为“虚拟世界的全能管家”。

该模型在 7项典型GUI评测基准中均刷新了SOTA（State-of-the-Art），包括：

OSWorld电脑操作基准：得分42.5，超越OpenAI CUA（36.4）和Claude 3.7（28）；
ScreenSpotPro元素定位测试：准确率61.6%，远超OpenAI的23.4%；
14款Poki小游戏：通关率100%，而OpenAI和Claude在部分游戏中得分为0。

AI快站下载

https://aifasthub.com/ByteDance-Seed/UI-TARS-1.5-7B

能看懂、会思考、可操作的GUI智能体

UI-TARS-1.5-7B 是字节跳动推出的 UI-TARS 系列模型的最新迭代版本，特别针对图形用户界面（GUI）自动化交互而设计。简单来说，它是一个“数字人”，具备以下核心能力：

看懂界面 (Perception): 它能像人一样“看”懂屏幕截图，理解复杂的界面布局、元素语义和上下文信息。
理解指令 (Language Understanding): 你可以用自然语言告诉它想做什么，比如“帮我打开微信，给张三发一条消息说我晚点到”。
思考规划 (Reasoning): 在接收指令后，它不会立刻行动，而是会进行“思考”（System-2 Reasoning），将复杂任务分解成多个步骤，并规划出合理的执行顺序。这得益于其集成的强化学习能力和“先思后行”（think-then-act）机制。
精准操作 (Action): 它能模拟人类的鼠标点击、键盘输入、滚动等操作，精准地与界面元素进行交互。

核心技术揭秘：视觉与语言的深度融合与自我进化

UI-TARS-1.5-7B 的强大能力并非偶然，其背后蕴藏着多项技术创新：

视觉-语言模型基础: 它构建在一个强大的视觉-语言大模型之上（可能基于 Qwen-VL 等），能够同时处理和理解图像（屏幕截图）和文本（用户指令）信息。
统一的动作空间 (Unified Action Modeling): 模型将不同平台（桌面、Web、移动端）的操作指令（如点击坐标、输入文本）统一起来，形成一个标准化的动作空间，实现了跨平台的通用性。
端到端训练: 与依赖外部工具或复杂流程的方案不同，UI-TARS 直接将视觉输入映射到原生的人类式操作（鼠标、键盘），实现了端到端的训练和交互。
System-2 推理机制: 引入了更深思熟虑的推理模式，包括任务分解、反思性思考（从错误中学习）、里程碑识别等，显著提升了处理复杂、多步骤任务的能力。
通过反思性在线轨迹进行迭代训练 (Iterative Training with Reflective Online Traces): 这是 UI-TARS 的一大特色。它能通过在虚拟机中自动执行任务、收集交互数据、过滤高质量轨迹，并进行反思式训练（识别错误并学习纠正），实现模型的持续自我进化和改进，有效解决了高质量训练数据稀缺的问题。

性能炸裂！多项基准测试超越 GPT-4V 和 Claude 3.7

“是骡子是马，拉出来遛遛。” UI-TARS-1.5-7B 的性能表现究竟如何？官方数据显示，它在多个主流的 GUI 自动化和理解基准测试中刷新了 SOTA 记录，甚至在特定任务上超越了像 OpenAI GPT-4V (CUA - Computer User Agent) 和 Anthropic Claude 3.7 这样的顶尖闭源模型。