反事实强化学习论文阅读：GROUNDING LANGUAGE PLANS IN DEMONSTRATIONS THROUGH COUNTERFACTUAL PERTURBATIONS

福葱

已于 2024-10-18 14:12:21 修改

阅读量1.1k

点赞数 20

分类专栏： paper reading 文章标签：论文阅读机器学习

于 2024-10-18 14:09:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42468768/article/details/143019189

版权

RL& TrustworthyAI Paper Reading : GROUNDING LANGUAGE PLANS IN DEMONSTRATIONS THROUGH COUNTERFACTUAL PERTURBATIONS

文章目录

RL& TrustworthyAI Paper Reading : GROUNDING LANGUAGE PLANS IN DEMONSTRATIONS THROUGH COUNTERFACTUAL PERTURBATIONS
数据集构建
获取正负样本，构建分类器
模式序列到feasible matrix
- 可行性矩阵构建过程
模式分类器设计
实验
实验设置
- 表1：消融研究（Ablation Study）
- 表2：任务成功率比较

原文链接：https://arxiv.org/pdf/2403.17124

to solve what problems?

传统的比如BC，问题在于训练数据太具体，因此很难学到抽象的constraint
而一般的LLM，可以做到对动作流程进行抽象，但缺乏物理知识的grounding
而且当前的模型很难做到recover和replanning

所以问题关键在于怎么让机器人可信地进行学习，和怎么让机器人能够实时重新规划

和强化学习的关系？

根据mode指定policy、BC、模型通过与环境交互完成task、学习mode的边界（RL的state space划分）、损失函数设置奖励信号

Interpretability的体现

对state进行划分，得到了更高层次抽象的mode，易于模型学习到边界，并直观展示了mode边界
模型决策过程可追溯——feasible matrix&mode belief

How?(generally)

提出了一种GiDle方法，使得机器人或虚拟代理（embodied agents）可以通过演示来学习完成任务。

演示的概念定义：完成一系列动作步骤的实例。可能以视频、传感器数据、时序数据、动作标注数据等形式出现。

GLiDE有两个阶段：

模式分类：根据状态（states）对当前的模式（modes）进行分类（比如，机器人在不同位置或执行不同动作时）。
模式特定策略学习：根据这些modes制定具体的操作策略

要让模型更好地学习模式分类，有两个要点：

如何更好地区分正负样本
寻找人工、全面标注每一个modes的替代方案——通过添加扰动，产生”反事实“轨迹这是一种对抗样本的思想。

扰动不重要的部分：如果机器人成功地把水杯拿起来，我们可以稍微改变这个过程，比如让它用不同的方式移动手臂。这个新过程生成的“反事实”轨迹可以用来扩大学习的状态覆盖范围。
扰动导致失败的结果：如果我们让机器人在取水时不小心撞到了桌子，导致失败，这种情况可以帮助模型识别在操作中可能的限制和问题。

数据集构建

我们构建了一个数据集 D，其中包含 N 条轨迹及其对应的成功信号：

$\{(\tau_i, succ_i)\}_{i=1}^N$

其中：

$\tau_i = \{s_1, s_2, \ldots, s_T\}$ 表示第 $i$ 条轨迹，包含 $T$ 个状态。
$succ_i \in \{0, 1\}$ 表示任务成功（1）或失败（0）。

轨迹扰动

对于每条成功的轨迹 $\tau$ ，我们进行以下扰动：

末端执行器扰动

随机选择轨迹中的两个点 $X$ 和 $Y$ 。
随机选择一个点 $Z$ 。
替换轨迹中的 $X Y$ 段为 $XZ$ 和 $Z Y$ 。

新轨迹 $\tau'$ 表示为：
$\tau' = \{s_1, \ldots, s_{k-1}, X, Z, Y, s_{k+1}, \ldots, s_T\}$

其中 $k$ 是 $Y$ 在轨迹中的索引。

夹持器扰动

随机选择夹持器状态 $g_j \in \{0, 1\}$ （0表示未抓握，1表示抓握）。
在轨迹中随机切换夹持器状态。

扰动后的轨迹表示为：
$\tau'' = \{(s_1, g_1), (s_2, g_2), \ldots, (s_T, g_T)\}$

其中 $g_j$ 是每个状态对应的夹持器状态。
在这里插入图片描述

任务成功信号

执行扰动后的轨迹 $\tau'$ 和 $\tau''$ 后，使用控制器在环境中执行，并收集每个轨迹的成功信号：
$f(\tau')$ 和 $f(\tau'')$

这里 $f(\cdot)$ 是一个函数，返回成功（1）或失败（0）
所以，这一阶段的输出可以视为生成的配对轨迹及其任务成功标签： $\{(\tau_i, succ_i)\}$

获取正负样本，构建分类器

把连续的、具体的演示动作，转变为抽象的、离散的模式过渡的过程

模式序列的学习：
- 定义模式序列：
  $\phi(\tau_i) = \{m_1, m_2, \ldots, m_T\}$

最低0.47元/天解锁文章

博客等级

码龄7年

1
原创

20
点赞

19
收藏

19
粉丝

关注

私信

热门文章

反事实强化学习论文阅读：GROUNDING LANGUAGE PLANS IN DEMONSTRATIONS THROUGH COUNTERFACTUAL PERTURBATIONS 1132

分类专栏

paper reading 1篇

最新评论

反事实强化学习论文阅读：GROUNDING LANGUAGE PLANS IN DEMONSTRATIONS THROUGH COUNTERFACTUAL PERTURBATIONS
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。