AG E N TTR E K: AGENT TRAJECTORY SYNTHESISVIA GUIDING REPLAY WITH WEB TUTORIALS论文学习

李小星同志

于 2025-03-27 16:43:13 发布

阅读量253

点赞数 5

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LI_XIAO_XING/article/details/146563362

版权

本篇工作也是自动化生成轨迹数据的工作，但很有意思的是其采用的是使用爬虫爬取网络上的各种教程，然后把这些教程转化为具有逐步指令的结构化任务。最后让agent执行一下，用vlm作为最终判断。

可以看到第一步中，应该是为了降低成本，作者先使用gpt4o来分辨网络上乱七八招的东西是不是教程，然后用结果去训练一个简单的分类器。最后用这个分类器筛选出教程文本，交给gpt生成结构化任务。而且这个任务一方面有总任务，一方面又有分步描述。这样一方面便于agent执行，一方面可以放进数据集里面让数据集里面既有单步任务又有多步任务。

总体筛选流程。

可以看到这个筛选流程是非常有效的。

从教程中可以提取出的信息远远不止任务描述。甚至包括了成功指标。

最后需要用gpt4o评估轨迹是否合格，有点类似于我的后处理。但是这个评估很详细：

包括了逐步分析，甚至包括了适用情况下的最早的故障点。

妈呀，怎么感觉他们的方法看起来都比我的好。我感觉我的pipline里面最novelty的就是后处理的部分，其它的部分和他们相比感觉没什么。分步评分感觉真的要提上日程了。还有，基本上所有用到了模型的环节，作者都做了模型和人为评估的误差分析，非常严谨。我们的也要做。

总结一下，本文最大的特色在于获取任务描述的方式。充分利用了网上的教程，既让agent的探索更顺畅，又可以让最后的数据集更加充分。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。