为什么训练“会操作电脑的AI”这么难? 想象一下,你希望训练一个AI助手帮你处理电脑上的各种任务:整理文件、安装软件、调试代码……但现实是,这样的AI至今仍像个“学步儿童”。为什么呢?
两大难题:
数据太少:人类操作电脑的“轨迹数据”极其稀缺。比如,人类点开文件夹→双击文件→修改内容→保存关闭,这一系列动作需要精准记录,但收集成本极高。
路径单一:传统方法依赖人工标注的固定操作流程,但现实中完成同一任务可能有N种方法(比如用快捷键或鼠标右键菜单),单一数据限制了AI的灵活性。

论文:Efficient Agent Training for Computer Use
链接:https://arxiv.org/pdf/2505.13909

解决方案:PC Agent-E如何用“极简数据”实现高效训练?
这篇论文的核心突破在于:用312条人工标注的轨迹数据,训练出吊打行业标杆的AI。
关键三步:
人工标注:两人一天内标注312条操作轨迹(包含截图、键盘鼠标动作);
脑补思想:用Claude模型还原人类操作时的“内心OS”(比如:“我要点这里,因为这里有个保存按钮”);
轨迹树增强:让Claude为每一步操作生成9种替代方案,形成“树状分支”,极大丰富数据多样性。

数据增强的“轨迹树”是什么?
轨迹树(Traj Tree)是本文的灵魂设计,简单说就是:用AI脑补人类操作的“平行宇宙”。
假设人类操作是树干(A→B→C),Claude会在每个步骤生成多个分支(比如A→B1→C1或A→B2→C2)。这些分支虽未真实执行,但为模型提供了“如果当时这么做会怎样”的虚拟经验。

结果:性能碾压行业大佬Claude,怎么做到的?
在改进版评测集WindowsAgentArena-V2上,PC Agent-E的表现堪称“逆袭”:
141%提升:对比基模型Qwen2.5-VL-72B;
超越Claude:甚至打败了开启“深度思考”模式的Claude 3.7 Sonnet;
全面领先:在Chrome、VS Code等常用软件任务中得分最高。

关键原因:
高质量数据:人类确保任务真实完成,Claude提供多样化解法;
长程规划能力:模型学会反思错误、调整策略(比如点错位置后重新尝试)。
跨界能力:Windows训练的AI,为何能玩转Linux?
更令人惊讶的是,PC Agent-E在Linux评测集OSWorld上也表现不俗,成功率提升34%。
原因:
操作逻辑相通:点击、拖拽、输入等基础动作跨平台通用;
避免“作弊”:作者删除了评测集中的“不可能任务”(比如已失效的系统功能),防止AI靠“摆烂”拿高分。

意义与局限:离“数字打工人”还有多远?
意义:
低成本训练:仅需少量高质量数据+AI增强,即可训练实用AI助手;
开源生态:代码、数据、模型全部公开,加速行业进步。
局限:
依赖Claude:若用更强的模型(如GPT-4o)做数据增强,效果可能更好;
未覆盖复杂场景:当前任务仍较基础,处理报错、多线程任务仍是挑战。
未来展望:
作者预言,AI将像人类一样通过“试错学习”进化,结合强化学习(RL)与监督训练(SFT),最终成为真正的“数字打工人”。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦