自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

翻译 论文阅读:Emergence of Locomotion Behaviors in Rich Environments

原理上来说,强化学习范式可以直接从简单的奖励信号中学习到复杂的行为。但是,在实践中,需要精确的奖励函数以及鼓励特定的解决方案或者从先验经验中获得。在本文中,探讨了在复杂环境(Rich Environments)中如何帮助促进复杂行为的学习。具体来说,我们在各种环境中训练智能体,并发现了这种良好的结果表现,这些训练出来的行为在一系列任务重表现良好。我们使用基于正向进步的简单奖励函数,在一组充满挑战的地形和障碍物上进行模拟以及训练。实用全新的策略梯度限制学习的可扩展变体,我们的智能体在没有明确的基于奖励的指导情

2022-08-30 20:10:01 649

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除