分层强化学习
文章平均质量分 89
小帅吖
无
展开
-
【分层强化学习】HIRO:Data-Efficient Hierarchical Reinforcement Learning
在本文中,我们研究了如何开发通用的HRL算法,因为它们不会在标准RL算法之外做出繁重的额外假设,并且是高效的,因为它们可以与适度数量的交互样本一起使用,使它们适用于机器人控制等现实问题。我们的实验表明,HIRO可用于学习模拟机器人的高度复杂行为,例如推动物体并利用它们到达目标位置,从几百万个样本中学习,相当于几天的实时交互。这里我的理解是通过修改transition中的目标,使得当遇到同样的状态时,下层的策略最终产生的传递到上层的结果与之前遇到这种状态时的传递到上层的结果一致。...原创 2022-07-31 18:25:50 · 694 阅读 · 0 评论 -
【分层强化学习】survey
总结分层强化学习中的知识,持续更新~~~原创 2022-07-28 16:16:38 · 1006 阅读 · 2 评论 -
【分层强化学习】HAC源码解读
分层强化学习HAC算法的代码实现过程原创 2022-07-28 15:54:58 · 1599 阅读 · 1 评论 -
【分层强化学习】HAC论文及代码
与HIRO一样,本文解决的同样是分层强化学习中不同层级策略学习所存在的non-stationary(非平稳问题),但是用了完全不同思想的方法。分层强化学习通过将任务分解成多个子任务,样本利用率更高。然而,在分层结构中,上层的转移函数取决于下层的策略,当所有层级的策略同时进行训练时,下层策略不断更新,这就导致了上层的转移函数会随之不断变化,在这样的非平稳环境中,智能体很难学习到最优策略,这就是分层强化学习所面临的非平稳(non-stationary)问题。...原创 2022-07-27 16:33:52 · 1771 阅读 · 0 评论