深度强化学习动态运动技能

最新推荐文章于 2024-06-19 18:15:36 发布

陈生~

最新推荐文章于 2024-06-19 18:15:36 发布

阅读量750

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/qq_43257640/article/details/104213534

版权

强化学习专栏收录该内容

2 篇文章

订阅专栏

文章：《DeepLoco:Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning》

1、INTRODUCTION

提出了两级控制器DeeoLoco：低级控制器（low-level controller,LLC）和高级控制器（high-level controller,HLC）。
低级控制器在小的时间尺度上以保持平衡为主要目标，高级控制器在大的时间尺度上有更高层次的目标，比如路径规划。
两级控制器都使用actor-critic网络。

2、RELATEDWORK

系统结构如下：
在这里插入图片描述
频率设定：系统仿真3khz，低级控制器30hz,高级控制器2hz。
g：goal, r:reward, s:state, a:action。
aH=gL,表示高级控制器的输出为低级控制器的目标。这里aH由一系列足迹组成。aL直接输入到模拟器里，估计就是最基础的关节角度之类的了。

3、POLICY REPRESENTATION AND LEARNING

actor

普通的actor网络。输入g,s,输出a的均值，再通过高斯分布的抽样得到a
$\pi(s,g,a) = p(a|s,g) = G(\mu(s,g),\theta)$
$a=\mu(s,g)+\lambda N,\quad N\sim G(0,\theta)$
这里协方差矩阵 $\theta=diag({\sigma_i})$ 是固定参数。 $\sqrt{\sigma_i}$ 取a变化范围的10%比较合适。考虑到噪声N有可能会使训练失败，加入服从概率为 $\epsilon$ 的伯努利分布的参数 $\lambda \in[0,1]$ 。

value

普通的value网络。不赘述。

update

更新时仅使用 $\lambda=1$ 的数据。使用PolicyGradient。不赘述。

4、LOW-LEVEL CONTROLLER

Reference Motion

为了让LLC学得更快更好，引入了参考动作。参考动作由和LLC差不多的state组成。为了采集参考动作，分别从走路和转弯的过程截取7秒，再从7秒里采集step。一个step始于支撑脚的脚后跟着地，止于摆动脚的脚后跟着地。为了统一，将每个step线性归一化到0.5s。

LLC

LLC state: 关节的位置，旋转角度，线速度，角速度，脚是否触地，标志阶段的变量 $\phi$ 。
LLC goal:接下来两步的期望位置坐标（x,y）（为什么是两步而不是更多步请参考原文），身体期望角度。
LLC action:关节位置。
LLC reward:综合了关节位置与参考动作关节位置的距离和实际脚步位置与期望脚步位置的距离。

Bilinear Phase Transform

LLC state中的阶段变量 $\phi$ 在每个step内会以一定的速率增加。比如一个step持续1s,假设 $0\le\phi\le2$ ,则 $\phi=2t$ 。
问题是一个变量不足以明显地体现阶段的差别，因为还有上百个变量一同作为actor网络的输入, $\phi$ 在网络中的作用就微乎其微了。
提出了一种解决办法：
令 $\Phi =(\Phi_0,\Phi_1,\Phi_2,\Phi_3)\quad \Phi_i \in \{0,1\}$ 且 $\Phi_i = 1$ 时0.25i< $\phi$ <0.25(i+1)。在将actor网络输入变成下面这样