王小帅帅帅帅啊-CSDN博客

翻译论文阅读：Emergence of Locomotion Behaviors in Rich Environments

原理上来说，强化学习范式可以直接从简单的奖励信号中学习到复杂的行为。但是，在实践中，需要精确的奖励函数以及鼓励特定的解决方案或者从先验经验中获得。在本文中，探讨了在复杂环境(Rich Environments)中如何帮助促进复杂行为的学习。具体来说，我们在各种环境中训练智能体，并发现了这种良好的结果表现，这些训练出来的行为在一系列任务重表现良好。我们使用基于正向进步的简单奖励函数，在一组充满挑战的地形和障碍物上进行模拟以及训练。实用全新的策略梯度限制学习的可扩展变体，我们的智能体在没有明确的基于奖励的指导情

2022-08-30 20:10:01 649

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

翻译 论文阅读：Emergence of Locomotion Behaviors in Rich Environments

空空如也

空空如也

翻译论文阅读：Emergence of Locomotion Behaviors in Rich Environments