【计算机图形学】Affordance Learning from Play for Sample-Efficient Policy Learning

文章介绍了利用自监督学习从游戏数据中训练视觉affordance模型,以指导机器人高效策略学习。方法包括从游戏行为预测Affordance,从模型驱动到RL控制,以及结合视觉信息进行抓取决策。VAPO与RLAffordance有相似之处,但数据来源和应用场景有所不同。
摘要由CSDN通过智能技术生成

对Affordance Learning from Play for Sample-Efficient Policy Learning的简单理解,不包括Introduction、Related Work和Experiment

1. 想要做的事

机器人在以人为中心的环境下应拥有理解物体功能的能力:

  • 每一个物体可以被用来干什么

  • 交互可能发生在哪个位置

  • 如何使用物体以实现相应的目标

为了让机器人拥有这些能力,从人类操控游戏数据中以self-supervised的方式训练了visual affordance model,在机器人上实现高效的策略学习和动作规划。

2. 方法概览

在这里插入图片描述

根据自监督Visual Affordance Model的引导,学习采样复杂操纵任务的样本高效策略。

第一步,训练一个网络来发现和学习未标注游戏数据中物体的Affordance;

第二步,将空间分离成两个区域:一个区域中,模型提出的策略将会是可靠的;另一个区域中,可能存在一些限制,比如存在感知错误或物理交互存在局限性;利用策略 π m o d \pi_{mod} πmod学习Affordance Model以驱动末端夹持器从自由空间到Affordance区域附近;

第三步:到达了邻近区域后,转换成局部强化学习策略 π r l \pi_{rl} πrl,驱动Affordance Model去寻找那些人类喜欢的物体区域,提升样本采样效率。

因此,最后的策略被定义为一个混合体: π ( a ∣ s ) = ( 1 − α ( s ) ) ⋅ π m o d ( a ∣ s ) + α ( s ) ⋅ π r l ( a ∣ s ) \pi(a|s)=(1-\alpha(s))·\pi_{mod}(a|s)+\alpha(s)·\pi_{rl}(a|s) π(as)=(1α(s))πmod(as)+α(s)πrl(as)。使用机器gripper和Affordance的距离 α ( s ) \alpha(s) α(s)在两种策略之间来回切换。

2.1 从游戏数据中学习Visual Affordance

利用人类操控过程中机器人抓手的打开和关闭信号来进行自监督学习,如图2所示。

在这里插入图片描述

不仅学习到了人-物交互的区域,同时通过人操纵物体的方法,也给了机器人“how”工作很强的先验。唯一的假设是对机器人摄像机进行标定(校准和调整摄像机的内部参数,以确保摄像机能够准确地捕捉和显示场景中的图像。这个过程通常包括确定焦距、畸变系数、光学中心等参数,以便在后续的图像处理和计算中能够准确地推断物体的大小、位置和形状等信息。通过摄像机标定,可以提高机器人视觉系统的精度和准确性,从而更好地执行各种视觉任务)

这里将Affordance预测任务分成了多个部分:

首先,Affordance模型 F a F_a Fa将图像 I I I转换成了二进制分割图 A ∈ R H × W A∈\R^{H×W} ARH×W,用于指示适于交互的区域;

其次,通过从Affordance区域每个pixel预测朝向中心的向量,来估计Affordance的中心区域,从Affordance区域中预测中心点非常关键,有助于在一个场景的多个物体情况下消除Affordance的二义性;(大概就是区分不同的物体&离得近的物体)

最后,游戏数据展示了人类与物体部件的自然交互,揭示了环境中的Afforded区域。因此,为了找到未标记数据的Affordance区域,gripper方向被视作探索人-物交互的启发式方法。

更具体如下:

第一步中的二进制分割图:直观地看来,如果在游戏过程中gripper关闭,表示在那个位置可能将会发生交互。因此,我们将gripper的3D点 p g r i p t p^t_{grip} pgript投影到相机图像像素 u g r i p t u^t_{grip} ugript,并标记过去 n n n帧内半径 r r r内的像素作为Afforded区域。类似的,如果gripper从关闭到打开,意味着物体将在3D位置 p i p_i pi处结束交互,这使得在整个运动时间过程中找到一组相互作用点 P k = ( p 1 , p 2 , . . . , p k ) P^k=(p_1,p_2,...,p_k) Pk=(p1,p2,...,pk),表示时间步长 k k k之前已经发生交互的世界坐标。为获得完整交互位置集,考虑将发生抓取的3D位置和时间 t t t之间发生交互的位置(有点读不通感觉)。最后,将3D点投影到相机图像像素,通过标记相邻像素来创建Affordance mask标签。

第二步中的消除二义性:为了从一个场景中多个物体的情况下消除Affordance歧义,让网络通过预测每个Affordance像素指向中心的向量 V ∈ R H × W × 2 V∈\R^{H×W×2} VRH×W×2,估计Affordance区域中心2D像素坐标。背景像素指向固定位置避免错误。

第三步启发式方法:启发式方法的一个限制是,其假设用户在游戏中与环境交互过程中,仅通过关闭gripper来完成有意义的操作。为避免gripper在自由空间中未能进行物体交互的情况下发生关闭/打开的情况,引入额外的检查:在打开和关闭过程中,griper宽度需要停留 △ t △t t个时间步。

为训练 F a F_a Fa,使用Affordance分割损失(交叉熵 l c e l_{ce} lce)和考虑类不均衡的(骰子?)损失 l d i c e l_{dice} ldice进行均衡,对于方向优化一个加权余弦相似性损失: L d i r = ∑ i ∈ O α i ( 1 − V i T V ‾ i ) + λ b ∣ B ∣ ∑ i ∈ B ( 1 − V i T [ 0 1 ] ) L_{dir}=\sum_{i∈O}\alpha_i(1-V^T_i\overline{V}_i)+\frac{\lambda_b}{|B|}\sum_{i∈B}(1-V^T_i\begin{bmatrix}0 \\ 1\end{bmatrix}) Ldir=iOαi(1ViTVi)+BλbiB(1ViT[01])

V i V_i Vi V ‾ i \overline{V}_i Vi分别是相似 i i i的预测和GT的单位方向。 B , O B,O B,O是分别属于背景和Affordance区域的一组像素。Affordance模型的总损失是 w c e l c e + w d i c e l d i c e + w d i r l d i r w_{ce}l_{ce}+w_{dice}l_{dice}+w_{dir}l_{dir} wcelce+wdiceldice+wdirldir

2.2 从基于模型的工作空间到强化学习的工作空间

对于随机动力学和高维的情况,传统的运动规划算法可能表现不好,而RL为这种运动规划提出了另类的解决思路,RL凭借其policies的泛化能力,能够处理复杂的交互和高维度的观察信息。但对于极其复杂的问题,RL policies从头开始学起是一个非常棘手的问题。所以文章受到前工作的启发,将学习空间分成了两部分:基于模型的策略可靠区域、可能存在感知错误和物理交互限制的区域。

在2.1中预测了Affordance和对应的区域中心。给定这些信息指示了人类与物体交互的区域。选择像素区域中心,通过基于模型的策略 π m o d \pi_{mod} πmod将gripper end-effector从自由空间中移动到选择像素的邻近位置;通过无模型的 π r l \pi_{rl} πrl来控制手部交互。两个策略之间的转换是通过gripper和预测的像素中心之间的距离实现的。

这种切换提升了不同位置的普适性。

2.3 Affordance引导的强化学习抓取

问题定义:标准的马尔科夫决策过程(MDP) M = ( S , A , T , r , μ 0 , γ ) M=(S,A,T,r,μ_0,γ) M=(S,A,T,r,μ0,γ)。其中 S S S A A A分别表示状态和动作空间, T ( s ′ ∣ s , a ) T(s'|s,a) T(ss,a)表示在状态 s s s下应用动作 a a a可以到达状态 s ′ s' s的概率,动作是从概率分布 π ( a , s ) \pi(a,s) π(a,s)提取的。 r ( s , a ) r(s,a) r(s,a)是在状态 s s s上执行动作 a a a获得的奖励, μ 0 μ_0 μ0是厨师状态分布, γ ∈ ( 0 , 1 ) γ∈(0,1) γ(0,1)优先考虑长期奖励而非短期奖励。RL的目标是优化策略 π ( a ∣ s ) \pi(a|s) π(as)以获得预期最大化: E π , μ 0 , τ [ ∑ t = 0 ∞ γ t r ( s , a ) ] E_{\pi,μ_0,\tau}[\sum^∞_{t=0}γ^tr(s,a)] Eπ,μ0,τ[t=0γtr(s,a)]

观察空间:两个部分组成:(1) 智能体本体感受状态,包括end effector的3D世界坐标、欧拉角方向,gripper宽度;(2) 由gripper相机观察到的当前RGB-D图像、对应于Affordance模型的二进制Affordance mask预测

动作空间:使用7-DOF Franka Emika Panda robot。动作空间由 delta XYZ位置,delta 欧拉角和二进制gripper action(打开或关闭)组成。

奖励:由三部分组成。除了奖励成功的物体交互,还应引导RL对物体可运动区域的探索,如下:

  1. R a f f R_{aff} Raff奖励end effector和affordance center逐渐接近;

  2. R o u t R_{out} Rout惩罚智能体远离了affordance center的neighborhood;

  3. R s u c c R_{succ} Rsucc奖励物体成功操纵了物体。

最终奖励包括: r ( s , a ) = λ 1 R s u c c + λ 2 R a f f + λ 3 R o u t r(s,a)=\lambda_1R_{succ}+\lambda_2R_{aff}+\lambda_3R_{out} r(s,a)=λ1Rsucc+λ2Raff+λ3Rout

2.4 补充细节

遥控游戏数据:在无脚本遥控交互过程中,记录相机的两张图片:静态相机捕捉全局场景;还有一个装在gripper上的相机。静态相机图像分辨率 200 × 200 200×200 200×200,gripper相机分辨率 64 × 64 64×64 64×64。在静态相机的图片上标记投影中心周围 r = 10 r=10 r=10的像素,在gripper相机图片上标记周围 r = 25 r=25 r=25的像素。

Affordance模型:U-Net结构,有两个平行的卷积层分支,产生Affordance mask和中心方向。使用Hough投票层预测2D物体的中心。Hough投票层以Affordance mask和方向向量作为输入,计算每个像素的分数。具有最大分数的位置被选为物体的中心。

在这里插入图片描述

为两个相机训练两个阶段的Affordance detection。为静态相机训练的模型,目标是预测空间交互热点图,指示可运动区域。类似的,为gripper相机的图像训练Affordance模型,给了一个更加精细的、关于人类如何尝试去操纵每个物体的空间交互图。

同时,希望Affordance模型能够指出物体的哪个部分是最相关的、用于操纵的。希望模型可以独立于颜色来指出这些信息,故送入到Affordance模型的都统一转换成灰度图后送入网络。

Affordance引导的强化学习:将RGBD图像和推理的Affordance mask通过卷积神经网络。接着将所获得的表示与机器人状态和与Affordance中心的距离连接起来,送入4个全连接层。Critic和Action使用相同的网络结构,但不共享权重。

3. 总结

这篇文章简称VAPO(Visual Affordance-guided Policy Optimization),和之前看过的RLAffordance有异曲同工之妙。看了一下,RLAffordance引用的第一篇文章就是这篇VAPO。

它们都是以Affordance map作为强化学习输入的一部分,也就是在强化学习的输入中引入额外的视觉观察,引入Affordance map作为额外的视觉操纵信息理解。

  • VAPO在2D上做,RLAffordance在3D上做。

  • VAPO数据来源于人类操控,RLAffordance数据来源于对物体的真实操控。

  • VAPO的奖励包括gripper接近操纵区域的奖励、远离操纵区域的惩罚、执行动作成功的奖励,RLAffordance奖励包括在Affordance map上高分位置的奖励、其他还有一些针对于任务设计的奖励

  • VAPO不针对于操纵某个铰接物体的操纵,是针对于大规模的刚性物体数据,主要做的是一些物体的收纳整理,RLAfford针对具体地铰接物体操纵任务,包括开关门、开关抽屉等

  • 23
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值