AG E N TTR E K: AGENT TRAJECTORY SYNTHESISVIA GUIDING REPLAY WITH WEB TUTORIALS论文学习

本篇工作也是自动化生成轨迹数据的工作,但很有意思的是其采用的是使用爬虫爬取网络上的各种教程,然后把这些教程转化为具有逐步指令的结构化任务。最后让agent执行一下,用vlm作为最终判断。

可以看到第一步中,应该是为了降低成本,作者先使用gpt4o来分辨网络上乱七八招的东西是不是教程,然后用结果去训练一个简单的分类器。最后用这个分类器筛选出教程文本,交给gpt生成结构化任务。而且这个任务一方面有总任务,一方面又有分步描述。这样一方面便于agent执行,一方面可以放进数据集里面让数据集里面既有单步任务又有多步任务。

总体筛选流程。

可以看到这个筛选流程是非常有效的。

从教程中可以提取出的信息远远不止任务描述。甚至包括了成功指标。

最后需要用gpt4o评估轨迹是否合格,有点类似于我的后处理。但是这个评估很详细:

包括了逐步分析,甚至包括了适用情况下的最早的故障点。

妈呀,怎么感觉他们的方法看起来都比我的好。我感觉我的pipline里面最novelty的就是后处理的部分,其它的部分和他们相比感觉没什么。分步评分感觉真的要提上日程了。还有,基本上所有用到了模型的环节,作者都做了模型和人为评估的误差分析,非常严谨。我们的也要做。

总结一下,本文最大的特色在于获取任务描述的方式。充分利用了网上的教程,既让agent的探索更顺畅,又可以让最后的数据集更加充分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值