论文阅读:SYNAPSE: TRAJECTORY-AS-EXEMPLAR PROMPTING WITH MEMORY FOR COMPUTER CONTROL

SYNAPSE: TRAJECTORY-AS-EXEMPLAR PROMPTING WITH MEMORY FOR COMPUTER CONTROL(轨迹作为示例+记忆的计算机控制)

  • 总结:

    • 构建了一个名为synapse的计算机控制智能体,其能力:

      • 状态抽象:从原始状态中过滤掉与任务无关的信息,允许在有限的上下文中提供更多示例
      • 轨迹作为示例提示:用具有抽象状态和动作的完整轨迹提示LLM,以改善多步骤决策
      • 示例记忆,:它存储示例的嵌入,并通过相似性搜索检索它们,以便泛化到新任务
    • 解决了当前计算机控制智能体的三个挑战:

      1. 上下文长度有限:例如网页内容token量很大(采用状态抽象解决

      2. 为探索的示例结构:现有计算机控制智能体难以应对长期任务(采用任务轨迹+示例轨迹记忆指导LLM生成解决

      3. 特定任务的示例:现有计算机控制智能体泛化性差,仅关注单一任务(相似示例记忆指导LLM生成解决)

        传统问题SYNAPSE解决方式
        1上下文长度有限状态抽象清洗计算机原始信息
        2难以应对长期任务采用任务轨迹+示例轨迹记忆指导LLM生成新的轨迹
        3计算机控制智能体泛化性差相似示例记忆指导LLM生成新的轨迹
    • 轨迹:一系列抽象的状态+动作

  • 框架组成:

    在这里插入图片描述

    • state abstraction(状态抽象):通过LLM原始计算机状态信息中任务无关项进行清洗,图中所示清洗任务(订票)无关的html源码。减少了每个状态所需的Token数量

      在这里插入图片描述

    • 示例轨迹提示LLM:LLM被提示当前任务历史轨迹+示例轨迹(来自示例轨迹检索)

      在这里插入图片描述

    • 示例轨迹检索:具有示例轨迹记忆机制,采用相似性检索,为LLM提供相似的示例轨迹

      在这里插入图片描述

  • 计算机控制智能体方法流程对比

    在这里插入图片描述

    • RCI: 操作在一开始定制完成,可能错误地预测下一个操作,难以解决长期任务
    • MindAct: MCQ格式的示例提示LLM,
    • Trajectory-as-Exemplar: 提供了一致的交互式格式,信息量更大
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值