我们需要一种可以帮助人们使用电脑的ai(教你要做什么的具体流程)
但现有的batchmark(基准)不是真的在一个可执行环境下,这会导致只有一个正确解,其余的可以方案也会被惩罚
因此我们需要更加合适的基准
OSWORLD是第一个可扩展的、用于多模式代理的真实计算机环境,支持任务设置、基于执行的评估和跨操作系统的交互式学习。它可以作为一个统一的环境来评估涉及任意的开放式计算机任务
应用程序
之前的agent都是在简化过的范围内一些特定的应用上工作,非常受限
GUI就是图形界面CLI是命令接口
以前的工作成功率不超过15%,甚至会0%,尤其在有多个app参与的时候
添加附加知识可能有用,但不大还可能误导
提供更高分辨率和更好的历史轨迹甚至可以成倍提升效果,在需要上下文和模型精度的时候
任务的定义似乎非常复杂,包括状态空间,观察空间(有自然语言)
工作开始的时候会先按照配置文件所要求创建一个虚拟机,完成初始化。完成环境之后就开始与环境交互(接受诸如截图之类的信息),然后就开始根据指令工作,最后是评估。
实验组准备了很多信息
工作图如上。是transformer模型吗?一边接受图像(vit式)一边是要求。最后生成指令,然后执行。