[阅读笔记24][WorkArena]How Capable are Web Agents at Solving Common Knowledge Work Tasks?

这篇论文是24年3月提交的,它提出了一个新的benchmark。

贡献大致有三点,第一点是提出了一个与企业任务相关的benchmark,包括了两万多个任务实例。第二点是设计了一个用于开发和评估web agent的环境,可以兼容之前的benchmark,并提供了更丰富的多模态观察以及更广泛的操作,最后它还支持对话式交互。最后一点就是做了实验来评估当前最先进的agent在WorkArena上的性能,然后还分析了一下BrowserGym不同功能对WorkArena和MiniWoB的影响。

WorkArena由29个任务,两万多个实例构成,涵盖了与ServiceNow平台的核心交互。这29个任务可以分为以下5类,基于列表的有12个,基于表单的任务有5个,知识库有1个信息检索任务,服务目录有9个任务,需要浏览产品目录,并订购给定规格的产品,最后是2个基于菜单的任务。

BrowserGym是作者设计的一个浏览器环境,是一个多模态agent测试平台且便于新benchmark设计。
它有下面几个功能,首先是基于对话的交互设计,这使得一些检索类的任务可以直接在对话框返回答案,并且可以按时间顺序发送多条任务,然后每个任务也是按顺序执行。
第二个功能是扩充了DOM的属性,对于每个元素新增了唯一标识符、中心坐标、边界框还有可见性。
第三个是丰富的观察空间,包括聊天内容、当前打开的页面、最后一次操作的错误信息、还有一个页面的多模态视图:它的DOM快照,它的可访问性树或AXTree,一张网页截图。
第四个是丰富的动作空间,动作空间是可定制的,并且动作空间中也包含了python代码。
第五个是多页面导航,支持需要打开多个页面的web任务。

作者基于WorkArena和BrowserGym开展了一系列实验,以评估最新的LLM在解决工作相关的web任务方面性能。这些实验主要有两个目的,首先是通过跨基线和基准来确定WorkArena的任务难度,其次是使用增量分析来量化BrowserGym中提出的不同功能的影响。
下面的表一就是基于不同LLM在不同基准下的表现分析,根据这张表可以分析出很多结论。首先看MiniWoB基准上的结果,基于GPT-4的agent表现得比之前研究中还要好,这说明了agent设计的有效性。然后对比两个基准,可以看到WorkArena更加有挑战性。然后是CodeLLaMA在WorkArena上成功率都是0,这表明开源模型和闭源模型之间的巨大差距。
表二和表三是分别在MiniWoB和WorkArena基准上的渐进性功能分析,每一行都在上一行基础上新加功能,显示了BrowserGym提出的功能在基准上的性能影响。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值