OSWORLD: Benchmarking Multimodal Agents forOpen-Ended Tasks in Real Computer Environments论文学习

本文讨论了现有AI在计算机任务中的局限性,提出OSWORLD作为首个可扩展的真实环境,支持任务设置和基于执行的评估。它强调了在复杂的任务定义下,如Transformer模型结合图像和文本输入,生成指令并提升交互式学习的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们需要一种可以帮助人们使用电脑的ai(教你要做什么的具体流程)

但现有的batchmark(基准)不是真的在一个可执行环境下,这会导致只有一个正确解,其余的可以方案也会被惩罚

因此我们需要更加合适的基准

OSWORLD是第一个可扩展的、用于多模式代理的真实计算机环境,支持任务设置、基于执行的评估和跨操作系统的交互式学习。它可以作为一个统一的环境来评估涉及任意的开放式计算机任务
应用程序

之前的agent都是在简化过的范围内一些特定的应用上工作,非常受限

GUI就是图形界面CLI是命令接口

以前的工作成功率不超过15%,甚至会0%,尤其在有多个app参与的时候

添加附加知识可能有用,但不大还可能误导

提供更高分辨率和更好的历史轨迹甚至可以成倍提升效果,在需要上下文和模型精度的时候

任务的定义似乎非常复杂,包括状态空间,观察空间(有自然语言)

工作开始的时候会先按照配置文件所要求创建一个虚拟机,完成初始化。完成环境之后就开始与环境交互(接受诸如截图之类的信息),然后就开始根据指令工作,最后是评估。

实验组准备了很多信息

工作图如上。是transformer模型吗?一边接受图像(vit式)一边是要求。最后生成指令,然后执行。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值