SkillMimic: Learning Reusable Basketball Skills from Demonstrations论文研读

WoMakeCode

已于 2024-09-25 16:40:04 修改

阅读量912

点赞数 23

分类专栏：人形机器人文章标签：机器人深度学习人工智能

于 2024-09-25 03:35:07 首次发布

本文链接：https://blog.csdn.net/WoMakeCode/article/details/142503685

版权

人形机器人专栏收录该内容

1 篇文章 0 订阅

订阅专栏

SkillMimic: Learning Reusable Basketball Skills from Demonstrations论文研读

论文内容总结
论文实现细节分析
需要进一步研究的点

论文地址: https://arxiv.org/pdf/2408.15270
项目地址: https://ingrid789.github.io/SkillMimic/

论文内容总结

SkillMimic基于强化学习学习多样化的篮球技能。
SkillMimic使用的篮球数据集为两种：一是单目RGB视频数据Ballplay-V，二是动补数据Ballplay-M。
设计了一种统一的回报设计（Unified skill imitation reward），计算每一步学习参考姿态的效果。同时回报项增加了物体的接触回报表示（即文中的Contact Graph表示）来加速学习效率（强化学习时常会让机器人学会一些不像人的或不期望的表现，例如用头和手同时接触篮球，完成篮球的抓取任务。使用接触图可以表示球是否同除手外的身体接触，以及是否同手接触，并在回报中体现仿真时的接触关系和参考数据的接触关系的差异来加速训练）。同时采用乘法而不是常用的加法来计算总回报，论文称这种计算方式可以更合理平衡各项回报的占比，并在实验中显示了这一方法的有效性。
SkillMimic还采用了分层强化学习的方式，学习一个更高层次的技能切换控制器，可以达到使用多个技能完成一个复杂的篮球任务。（这个部分同论文ASE的学习高层控制策略比较像）。
实验结果表明，SkillMimic可以有效地学习数据集中包含的各种篮球技能，包括各种风格的运球、上篮和投篮。此外，通过训练一个高级控制器来重用所获得的技能，可以实现复杂的篮球任务，如上篮得分（这涉及到运球向篮筐，计时运球和上篮得分，取回篮板，并重复这个过程）。

下图显示了SkillMimic的系统构成。
SkillMimic系统构成图

论文实现细节分析

技能表示

一种技能可以直接由连续的动作剪辑（motion clips）来表示。可以收集多条动作剪辑来丰富某个技能的表示，这样数据量越多模仿学习对该技能可以学的更好。

状态设计

技能网络输入包含两部分，即状态 $s_t$ 和技能标签 $c_j$ （one-hot表示）。
$\bm{s}_t = \{ \bm{o}^{prop}_t, \bm{o}^f_t, \bm{o}^{obj}_t \}$
$\bm{o}^{prop}_t$ （机器人本体状态）：

global root height
local body position, rotation, position velocity, angular velocity

$\bm{o}^f_t$ （接触力信息）：

net contact forces for all fingertips

$\bm{o}^{obj}_t$ （物体状态）:

local position, rotation, velocity, and angular velocity

回报设计

complete Human-Object Interaction (HOI) imitation reward is
$\bm{r}_t = \bm{r}^{b}_t * \bm{r}^{o}_t * \bm{r}^{rel}_t * \bm{r}^{reg}_t * \bm{r}^{cg}_t$

$\bm{r}^{cg}_t$ ：Contact Graph Reward, is designed to enhance the precision
of interaction imitation
$\bm{r}^{b}_t$ ：the Body Kinematics Reward
$\bm{r}^{o}_t$ ：the Object Kinematics Reward
$\bm{r}^{rel}_t$ ：the Relative Motion Reward
$\bm{r}^{reg}_t$ ：a Velocity Regularization term to suppress high-frequency jitters