312条数据训练出“电脑高手”！刘鹏飞团队提出PC Agent-E，性能超越Claude

zenRRan

于 2025-05-24 19:09:39 发布

阅读量808

点赞数 13

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/148352827

版权

为什么训练“会操作电脑的AI”这么难？想象一下，你希望训练一个AI助手帮你处理电脑上的各种任务：整理文件、安装软件、调试代码……但现实是，这样的AI至今仍像个“学步儿童”。为什么呢？

两大难题：

数据太少：人类操作电脑的“轨迹数据”极其稀缺。比如，人类点开文件夹→双击文件→修改内容→保存关闭，这一系列动作需要精准记录，但收集成本极高。
路径单一：传统方法依赖人工标注的固定操作流程，但现实中完成同一任务可能有N种方法（比如用快捷键或鼠标右键菜单），单一数据限制了AI的灵活性。

论文：Efficient Agent Training for Computer Use
链接：https://arxiv.org/pdf/2505.13909

PC Agent-E性能对比图

PC Agent-E性能对比图

解决方案：PC Agent-E如何用“极简数据”实现高效训练？

这篇论文的核心突破在于：用312条人工标注的轨迹数据，训练出吊打行业标杆的AI。

关键三步：

人工标注：两人一天内标注312条操作轨迹（包含截图、键盘鼠标动作）；
脑补思想：用Claude模型还原人类操作时的“内心OS”（比如：“我要点这里，因为这里有个保存按钮”）；
轨迹树增强：让Claude为每一步操作生成9种替代方案，形成“树状分支”，极大丰富数据多样性。

框架流程图

框架流程图

数据增强的“轨迹树”是什么？

轨迹树（Traj Tree）是本文的灵魂设计，简单说就是：用AI脑补人类操作的“平行宇宙”。

假设人类操作是树干（A→B→C），Claude会在每个步骤生成多个分支（比如A→B1→C1或A→B2→C2）。这些分支虽未真实执行，但为模型提供了“如果当时这么做会怎样”的虚拟经验。

轨迹树示意图

轨迹树示意图

结果：性能碾压行业大佬Claude，怎么做到的？

在改进版评测集WindowsAgentArena-V2上，PC Agent-E的表现堪称“逆袭”：

141%提升：对比基模型Qwen2.5-VL-72B；
超越Claude：甚至打败了开启“深度思考”模式的Claude 3.7 Sonnet；
全面领先：在Chrome、VS Code等常用软件任务中得分最高。

主实验结果表

主实验结果表

关键原因：

高质量数据：人类确保任务真实完成，Claude提供多样化解法；
长程规划能力：模型学会反思错误、调整策略（比如点错位置后重新尝试）。

跨界能力：Windows训练的AI，为何能玩转Linux？

更令人惊讶的是，PC Agent-E在Linux评测集OSWorld上也表现不俗，成功率提升34%。

原因：

操作逻辑相通：点击、拖拽、输入等基础动作跨平台通用；
避免“作弊”：作者删除了评测集中的“不可能任务”（比如已失效的系统功能），防止AI靠“摆烂”拿高分。

跨平台评测表

跨平台评测表

意义与局限：离“数字打工人”还有多远？

意义：

低成本训练：仅需少量高质量数据+AI增强，即可训练实用AI助手；
开源生态：代码、数据、模型全部公开，加速行业进步。

局限：

依赖Claude：若用更强的模型（如GPT-4o）做数据增强，效果可能更好；
未覆盖复杂场景：当前任务仍较基础，处理报错、多线程任务仍是挑战。

未来展望：
作者预言，AI将像人类一样通过“试错学习”进化，结合强化学习（RL）与监督训练（SFT），最终成为真正的“数字打工人”。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。