独家 | 三个经典强化学习算法中重大缺陷(及如何修复)

本文揭示了强化学习(RL)中Q-learning、策略梯度更新和非策略学习的三个主要问题:高估值动作的选择、策略梯度更新不良以及非策略学习性能欠佳,并提出了解决方案,包括使用目标网络、熵正则化和重要性抽样等方法来改进算法性能。
摘要由CSDN通过智能技术生成

9e2492fcd74614e8cf886cd726049c55.png

作者:Wouter van Heeswijk, PhD翻译:陈之炎

校对:张睿毅


本文约3600字,建议阅读7分钟本文讨论经典强化学习算法的三个主要缺陷,以及克服这些缺陷的解决方案。

如何克服经典强化学习(RL)中遇到的下述缺陷:

9f44df86fa97fa884eb58b286c23cde9.png

图片由Varvara Grabova 在“Unsplash”杂志上提供

诸如Q-learning和REINFORCE等强化学习算法问世已经几十年了,教科书仍然广泛围绕它们。然而这些算法暴露出的一些根本的缺陷,极大地增加了一个良好策略进行学习的难度。

本文讨论经典强化学习算法的三个主要缺陷,以及克服这些缺陷的解决方案。

I. 选择高估值的动作

问题描述

大多数RL算法在Q-learning算法基础上使用价值函数来捕获下游奖励,其中Q-learning算法的驱动机制是,它选择生成最高期望值的那个动作。由于初始化的不同,这种机制在尝试第一个操作时往往会卡住,所以通常选择概率为ϵ的随机操作,典型值设置为0.05左右。

在极限情况下,会无限频次地尝试每个动作,直到Q收敛到真实值。然而,实际经常是使用有限的样本,Q值就带偏差,因此问题是Q-learning算法会持续地选择高估值的动作

想象一下,当玩两个相同的老虎机时,早期迭代中机器A碰巧给出了高于平均水平的奖励,所以它的Q值更高,继续玩机器A。于是,由于机器B使用更少,因此需要更长时间才能计算出Q值。即便实际上两台机器Q值相同。

从一般意义上来说,价值函数并不总是完美的,虽然RL更喜欢执行估值较高的动作,但不排除可能有时候RL会“奖励”估值低的动作——这显然不是理想的属性。

100b31efb0b094f08880efdae8d7445e.png

老虎机问题清楚证明了选择值溢出动作带来的影响[图源Bangyu Wang“Unsplash”杂志]

解决方案

Q-learning算法的问题可以溯源到用相同的观察结果进行采样和更新的实践,通过使用一个策略进行采样并更新另一个策略来解耦这些步骤,这正是Q-learning(Van Hasselt,2010)所做的。

0796a6d1050ba3042fbd5bf068611f51.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值