作者:Wouter van Heeswijk, PhD翻译:陈之炎
校对:张睿毅
本文约3600字,建议阅读7分钟本文讨论经典强化学习算法的三个主要缺陷,以及克服这些缺陷的解决方案。
如何克服经典强化学习(RL)中遇到的下述缺陷:
图片由Varvara Grabova 在“Unsplash”杂志上提供
诸如Q-learning和REINFORCE等强化学习算法问世已经几十年了,教科书仍然广泛围绕它们。然而这些算法暴露出的一些根本的缺陷,极大地增加了一个良好策略进行学习的难度。
本文讨论经典强化学习算法的三个主要缺陷,以及克服这些缺陷的解决方案。
I. 选择高估值的动作
问题描述
大多数RL算法在Q-learning算法基础上使用价值函数来捕获下游奖励,其中Q-learning算法的驱动机制是,它选择生成最高期望值的那个动作。由于初始化的不同,这种机制在尝试第一个操作时往往会卡住,所以通常选择概率为ϵ的随机操作,典型值设置为0.05左右。
在极限情况下,会无限频次地尝试每个动作,直到Q收敛到真实值。然而,实际经常是使用有限的样本,Q值就带偏差,因此问题是Q-learning算法会持续地选择高估值的动作!
想象一下,当玩两个相同的老虎机时,早期迭代中机器A碰巧给出了高于平均水平的奖励,所以它的Q值更高,继续玩机器A。于是,由于机器B使用更少,因此需要更长时间才能计算出Q值。即便实际上两台机器Q值相同。
从一般意义上来说,价值函数并不总是完美的,虽然RL更喜欢执行估值较高的动作,但不排除可能有时候RL会“奖励”估值低的动作——这显然不是理想的属性。
老虎机问题清楚证明了选择值溢出动作带来的影响[图源Bangyu Wang“Unsplash”杂志]
解决方案
Q-learning算法的问题可以溯源到用相同的观察结果进行采样和更新的实践,通过使用一个策略进行采样并更新另一个策略来解耦这些步骤,这正是Q-learning(Van Hasselt,2010)所做的。