CARL Controllable Agent with Reinforcement Learning-动作生成算法

最新推荐文章于 2024-08-24 14:08:21 发布

Wastoon

最新推荐文章于 2024-08-24 14:08:21 发布

阅读量260

点赞数

文章标签：算法深度学习机器学习

本文链接：https://blog.csdn.net/qq_36412570/article/details/119993428

版权

CARL: Controllable Agent with Reinforcement Learning for Quadruped Locomotion

来源: SigGraph2021
研究方向: 动作生成
链接: https://arxiv.org/abs/2005.03288

动态环境中的动作合成是一个长期存在的问题。在复杂环境中使用动作数据来学习动作合成往往会面临标注难得到的问题，然而，在这种情况下，使用基于物理模拟器的方案就比较有效。因此CARL就在物理模拟器中，借助强化学习进行了动画角色的动作生成。

在这里插入图片描述

CARL的方案也非常直观。分为3个阶段的学习。

首先是第一阶段的imitation learning，除了更长的策略学习过程之外，还使用到了一个条件生成器，该条件生成器G_low的输入是初始的一个状态，条件或是控制信息是GT的动作，希望这个条件生成器得到k种动作的动作编码。
然后第二阶段是进行生成对抗的训练，将第一阶段使用GT动作作为条件信息得到的动作编码作为真的信息，让判别器希望给它打高分，而将第二阶段中使用的高度抽象的条件信息（如行进方向，速度）和初始的状态作为输入，来让条件生成器G_high得到k种动作的编码作为fake的信息，希望判别器能够打低分。总体来说第二阶段是想要用高度抽象的高阶控制条件来近似阶段一中joint level的关节点控制信息。
最后的第三个阶段就是结合DRL模型，再次来调整G_high网络。

我觉得是可行的，本身stage1的模仿学习过程肯定没有问题，亮点在于GAN要辨别的信息是某种高层的控制信息生成的特征和某种底层的控制信息生成的特征，这在一定程度上是top-down和bottom-up的控制信息对于动作生成任务具有统一性的体现，这个点还是非常有意思的。

关注