312条数据训练出“电脑高手”!刘鹏飞团队提出PC Agent-E,性能超越Claude

为什么训练“会操作电脑的AI”这么难? 想象一下,你希望训练一个AI助手帮你处理电脑上的各种任务:整理文件、安装软件、调试代码……但现实是,这样的AI至今仍像个“学步儿童”。为什么呢?

两大难题:

  1. 数据太少:人类操作电脑的“轨迹数据”极其稀缺。比如,人类点开文件夹→双击文件→修改内容→保存关闭,这一系列动作需要精准记录,但收集成本极高。

  2. 路径单一:传统方法依赖人工标注的固定操作流程,但现实中完成同一任务可能有N种方法(比如用快捷键或鼠标右键菜单),单一数据限制了AI的灵活性。

论文:Efficient Agent Training for Computer Use
链接:https://arxiv.org/pdf/2505.13909

PC Agent-E性能对比图
PC Agent-E性能对比图

解决方案:PC Agent-E如何用“极简数据”实现高效训练?

这篇论文的核心突破在于:用312条人工标注的轨迹数据,训练出吊打行业标杆的AI

关键三步

  1. 人工标注:两人一天内标注312条操作轨迹(包含截图、键盘鼠标动作);

  2. 脑补思想:用Claude模型还原人类操作时的“内心OS”(比如:“我要点这里,因为这里有个保存按钮”);

  3. 轨迹树增强:让Claude为每一步操作生成9种替代方案,形成“树状分支”,极大丰富数据多样性。

框架流程图
框架流程图

数据增强的“轨迹树”是什么?

轨迹树(Traj Tree)是本文的灵魂设计,简单说就是:用AI脑补人类操作的“平行宇宙”

假设人类操作是树干(A→B→C),Claude会在每个步骤生成多个分支(比如A→B1→C1或A→B2→C2)。这些分支虽未真实执行,但为模型提供了“如果当时这么做会怎样”的虚拟经验。

轨迹树示意图
轨迹树示意图

结果:性能碾压行业大佬Claude,怎么做到的?

在改进版评测集WindowsAgentArena-V2上,PC Agent-E的表现堪称“逆袭”:

  • 141%提升:对比基模型Qwen2.5-VL-72B;

  • 超越Claude:甚至打败了开启“深度思考”模式的Claude 3.7 Sonnet;

  • 全面领先:在Chrome、VS Code等常用软件任务中得分最高。

主实验结果表
主实验结果表

关键原因

  • 高质量数据:人类确保任务真实完成,Claude提供多样化解法;

  • 长程规划能力:模型学会反思错误、调整策略(比如点错位置后重新尝试)。

跨界能力:Windows训练的AI,为何能玩转Linux?

更令人惊讶的是,PC Agent-E在Linux评测集OSWorld上也表现不俗,成功率提升34%。

原因

  • 操作逻辑相通:点击、拖拽、输入等基础动作跨平台通用;

  • 避免“作弊”:作者删除了评测集中的“不可能任务”(比如已失效的系统功能),防止AI靠“摆烂”拿高分。

跨平台评测表
跨平台评测表

意义与局限:离“数字打工人”还有多远?

意义

  • 低成本训练:仅需少量高质量数据+AI增强,即可训练实用AI助手;

  • 开源生态:代码、数据、模型全部公开,加速行业进步。

局限

  • 依赖Claude:若用更强的模型(如GPT-4o)做数据增强,效果可能更好;

  • 未覆盖复杂场景:当前任务仍较基础,处理报错、多线程任务仍是挑战。

未来展望
作者预言,AI将像人类一样通过“试错学习”进化,结合强化学习(RL)与监督训练(SFT),最终成为真正的“数字打工人”。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值