从人类偏好进行深度强化学习(二)

设定和目标

我们考虑代理在一系列步骤上与环境互动。传统的强化学习会提供一个奖励,代理的目标是最大化奖励的减化和。我们这里假设有一个人类监督者在轨迹片段之间提供偏好,而不是环境产生一个奖励信号。代理的目标是产生人类偏好的轨迹,同时尽可能少的向人类发出询问。更准确讲,我们以两种方式评估我们的算法:

定量上(公式拷贝不过来,请参见原文)。

定性上:有时我们没有可用来定量评估行为的奖励函数(这是我们的方法最有用的情况)。我们只能定性的评估代理满足人类偏好的程度。这里我们从以自然语言体现的目标开始,请人类根据实现目标情况来评估代理的表现,然后展现代理尝试实现目标的视频。

我们的模型基于轨迹片段比较,与Wilson等2012使用的轨迹偏好询问非常相似,但我们不假设能够将系统重设成任意状态,所以我们的片段整体上从不同状态开始。这使人类比较的解读变得复杂,但我们的算法克服了这些困难,即使人类评价者并不理解算法的内容。

我们的方法

在每个时间我们的方法保持了策略和奖励函数,由深度神经网络定参。

网络更新分为三个步骤:

1、策略与环境互动生成一组轨迹,策略的参数由传统的强化学习函数更新,以最大化预测奖励之和。

2、我们选择一组第一步产生的轨迹,发给人类进行比较。

3、映射的参数通过拟合收集于人类的比较的有监督学习来优化。

这些步骤非同时运行,轨迹从1到2,人类比较从2到3,参数从3到1。具体优化策略、偏好选择、拟合奖励函数、选择询问请见原文。

实验结果

我们在TensorFlow(Abadi等2016)上运行算法。通过OpenAI Gym(Brockman等2016)与MuJoCo(Todorov等2012)和Arcade学习环境(Bellemare等2013)互动。

在第一组实验中,我们尝试不通过观察真实奖励来解决一些列深度RL标准任务,代理通过询问人类两个轨迹中哪一个为优来学习任务目标。我们的目标是在合理的时间内使用尽量少的询问来解决任务。在实验中,受托方提供反馈,他们被给予1-2句关于任务的描述,然后比较几百到几千组的轨迹片断。每个轨迹片断在1-2秒之间。受托方平均使用3-5秒来给出答案,所以实际人类反馈需要30分钟到5个小时。

为了比较,我们也在合成反馈上运行实验,它们对轨迹的偏好反映了任务的奖励。当代理询问比较时,我们不将它的询问发送给人类而是根据哪个轨迹片断实际接收更高地奖励来显示偏好。我们的目标是尽可能的取得与RL相似的结果而不需要奖励信息,仅依赖于少数的反馈。尽管如此,人类反馈的使用能更好的优于RL表现。

讨论

代理-环境的互动比与人类的互动成本大幅降低。我们展示通过监督学习一个独立的奖励模块,能将互动的复杂度降低3个数量级。我们可以从人类的偏好训练深度RL代理,并且由于计算机的成本和非专家反馈的成本可比,我们已经到达进一步提升样本复杂度的收益递减。

虽然有很多文献关于偏好选择和从未知奖励函数进行强化学习,我们提出了可以将这些技巧有效的扩展到最新的强化学习系统。这向着在真实世界任务中应用深度RL前进了一步。

将来可探索的方向有提高从人类偏好学习的效率,扩大可应用的范围。长远来看,使得从人类偏好学习和从编程奖励信息号学习一样简单是一个方向,这样RL系统能应用于复杂的人类价值而不是复杂度低的目标。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值