OSWORLD: Benchmarking Multimodal Agents forOpen-Ended Tasks in Real Computer Environments论文学习

最新推荐文章于 2025-05-20 08:57:24 发布

李小星同志

最新推荐文章于 2025-05-20 08:57:24 发布

阅读量547

点赞数 1

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LI_XIAO_XING/article/details/137711615

版权

本文讨论了现有AI在计算机任务中的局限性，提出OSWORLD作为首个可扩展的真实环境，支持任务设置和基于执行的评估。它强调了在复杂的任务定义下，如Transformer模型结合图像和文本输入，生成指令并提升交互式学习的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们需要一种可以帮助人们使用电脑的ai(教你要做什么的具体流程)

但现有的batchmark(基准)不是真的在一个可执行环境下，这会导致只有一个正确解，其余的可以方案也会被惩罚

因此我们需要更加合适的基准

OSWORLD是第一个可扩展的、用于多模式代理的真实计算机环境，支持任务设置、基于执行的评估和跨操作系统的交互式学习。它可以作为一个统一的环境来评估涉及任意的开放式计算机任务
应用程序

之前的agent都是在简化过的范围内一些特定的应用上工作，非常受限

GUI就是图形界面CLI是命令接口

以前的工作成功率不超过15%，甚至会0%，尤其在有多个app参与的时候

添加附加知识可能有用，但不大还可能误导

提供更高分辨率和更好的历史轨迹甚至可以成倍提升效果，在需要上下文和模型精度的时候

任务的定义似乎非常复杂，包括状态空间，观察空间（有自然语言）

工作开始的时候会先按照配置文件所要求创建一个虚拟机，完成初始化。完成环境之后就开始与环境交互（接受诸如截图之类的信息），然后就开始根据指令工作，最后是评估。

实验组准备了很多信息

工作图如上。是transformer模型吗？一边接受图像（vit式）一边是要求。最后生成指令，然后执行。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。