![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
wangli0519
这个作者很懒,什么都没留下…
展开
-
从人类偏好进行深度强化学习(一)
摘要为使复杂加强学习RL系统能有效与真实环境互动,我们需要向这些系统传递复杂目标。这里,我们探索轨迹片段组间(非专家)人类偏好定义的目标。我们展示这种方法可以有效的解决复杂的RL任务而不需要访问奖励函数,包括Atari游戏和模拟机器人定位,仅提供少于1%代理与环境互动的反馈。这将足以降低人类监督成本到它可以实际的被应用于最先进的RL系统。为了展示我们方法的灵活性,我们展示我们可以仅用人类一小时翻译 2017-06-14 20:00:36 · 3123 阅读 · 0 评论 -
混合合作-竞争环境的多代理行动者鉴定
这里主要探讨在多代理环境的强化学习方法。首先分析在多代理环境下传统算法面临的困难:Q学习面临环境内在非稳定性的挑战,而随着代理数量的增加,策略梯度面临变动。然后提出一个调整的行动者鉴定方法,以考虑其他代理的行动策略并能学习复杂多代理协调的策略。此外,我们介绍一个为每个代理使用策略聚合的训练方法,以取得更具抗干扰性的多代理策略。我们将它与现存的合作、竞争环境的方法相比较,我们的代理能发现多种物理和信翻译 2017-06-17 23:21:01 · 544 阅读 · 0 评论 -
从人类偏好进行深度强化学习(二)
∈翻译 2017-06-15 09:26:28 · 1864 阅读 · 1 评论