[阅读笔记24][WorkArena]How Capable are Web Agents at Solving Common Knowledge Work Tasks?

CCloth

已于 2024-04-20 21:03:53 修改

阅读量372

点赞数 3

文章标签：笔记

于 2024-04-20 20:41:31 首次发布

本文链接：https://blog.csdn.net/m0_55982600/article/details/138010816

版权

这篇论文是24年3月提交的，它提出了一个新的benchmark。

贡献大致有三点，第一点是提出了一个与企业任务相关的benchmark，包括了两万多个任务实例。第二点是设计了一个用于开发和评估web agent的环境，可以兼容之前的benchmark，并提供了更丰富的多模态观察以及更广泛的操作，最后它还支持对话式交互。最后一点就是做了实验来评估当前最先进的agent在WorkArena上的性能，然后还分析了一下BrowserGym不同功能对WorkArena和MiniWoB的影响。

WorkArena由29个任务，两万多个实例构成，涵盖了与ServiceNow平台的核心交互。这29个任务可以分为以下5类，基于列表的有12个，基于表单的任务有5个，知识库有1个信息检索任务，服务目录有9个任务，需要浏览产品目录，并订购给定规格的产品，最后是2个基于菜单的任务。

BrowserGym是作者设计的一个浏览器环境，是一个多模态agent测试平台且便于新benchmark设计。
它有下面几个功能，首先是基于对话的交互设计，这使得一些检索类的任务可以直接在对话框返回答案，并且可以按时间顺序发送多条任务，然后每个任务也是按顺序执行。
第二个功能是扩充了DOM的属性，对于每个元素新增了唯一标识符、中心坐标、边界框还有可见性。
第三个是丰富的观察空间，包括聊天内容、当前打开的页面、最后一次操作的错误信息、还有一个页面的多模态视图：它的DOM快照，它的可访问性树或AXTree，一张网页截图。
第四个是丰富的动作空间，动作空间是可定制的，并且动作空间中也包含了python代码。
第五个是多页面导航，支持需要打开多个页面的web任务。

作者基于WorkArena和BrowserGym开展了一系列实验，以评估最新的LLM在解决工作相关的web任务方面性能。这些实验主要有两个目的，首先是通过跨基线和基准来确定WorkArena的任务难度，其次是使用增量分析来量化BrowserGym中提出的不同功能的影响。
下面的表一就是基于不同LLM在不同基准下的表现分析，根据这张表可以分析出很多结论。首先看MiniWoB基准上的结果，基于GPT-4的agent表现得比之前研究中还要好，这说明了agent设计的有效性。然后对比两个基准，可以看到WorkArena更加有挑战性。然后是CodeLLaMA在WorkArena上成功率都是0，这表明开源模型和闭源模型之间的巨大差距。
表二和表三是分别在MiniWoB和WorkArena基准上的渐进性功能分析，每一行都在上一行基础上新加功能，显示了BrowserGym提出的功能在基准上的性能影响。

CCloth

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[阅读笔记24][WorkArena]How Capable are Web Agents at Solving Common Knowledge Work Tasks?

第二点是设计了一个用于开发和评估web agent的环境，可以兼容之前的benchmark，并提供了更丰富的多模态观察以及更广泛的操作，最后它还支持对话式交互。这29个任务可以分为以下5类，基于列表的有12个，基于表单的任务有5个，知识库有1个信息检索任务，服务目录有9个任务，需要浏览产品目录，并订购给定规格的产品，最后是2个基于菜单的任务。第三个是丰富的观察空间，包括聊天内容、当前打开的页面、最后一次操作的错误信息、还有一个页面的多模态视图：它的DOM快照，它的可访问性树或AXTree，一张网页截图。
复制链接

扫一扫