CARL Controllable Agent with Reinforcement Learning-动作生成算法

CARL: Controllable Agent with Reinforcement Learning for Quadruped Locomotion

来源: SigGraph2021
研究方向: 动作生成
链接: https://arxiv.org/abs/2005.03288

文章动机

动态环境中的动作合成是一个长期存在的问题。在复杂环境中使用动作数据来学习动作合成往往会面临标注难得到的问题,然而,在这种情况下,使用基于物理模拟器的方案就比较有效。因此CARL就在物理模拟器中,借助强化学习进行了动画角色的动作生成。

方案实施

在这里插入图片描述

CARL的方案也非常直观。分为3个阶段的学习。

  • 首先是第一阶段的imitation learning,除了更长的策略学习过程之外,还使用到了一个条件生成器,该条件生成器G_low的输入是初始的一个状态,条件或是控制信息是GT的动作,希望这个条件生成器得到k种动作的动作编码。
  • 然后第二阶段是进行生成对抗的训练,将第一阶段使用GT动作作为条件信息得到的动作编码作为真的信息,让判别器希望给它打高分,而将第二阶段中使用的高度抽象的条件信息(如行进方向,速度)和初始的状态作为输入,来让条件生成器G_high得到k种动作的编码作为fake的信息,希望判别器能够打低分。总体来说第二阶段是想要用高度抽象的高阶控制条件来近似阶段一中joint level的关节点控制信息。
  • 最后的第三个阶段就是结合DRL模型,再次来调整G_high网络。

方案可行性

我觉得是可行的,本身stage1的模仿学习过程肯定没有问题,亮点在于GAN要辨别的信息是某种高层的控制信息生成的特征和某种底层的控制信息生成的特征,这在一定程度上是top-down和bottom-up的控制信息对于动作生成任务具有统一性的体现,这个点还是非常有意思的。

结论

这篇文章的一个亮点就是把GAN和DRL给进行了结合。一个存疑的点是这三个stage的任务能不能joint optimization,即把(a)(b)进行融合,或者是交叉优化,直至加入©过程。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值