独家 | 三个经典强化学习算法中重大缺陷（及如何修复）

最新推荐文章于 2024-04-30 20:08:15 发布

数据派THU

最新推荐文章于 2024-04-30 20:08:15 发布

阅读量751

点赞数 1

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/129035723

版权

本文揭示了强化学习（RL）中Q-learning、策略梯度更新和非策略学习的三个主要问题：高估值动作的选择、策略梯度更新不良以及非策略学习性能欠佳，并提出了解决方案，包括使用目标网络、熵正则化和重要性抽样等方法来改进算法性能。

摘要由CSDN通过智能技术生成

作者：Wouter van Heeswijk, PhD翻译：陈之炎

校对：张睿毅


本文约3600字，建议阅读7分钟本文讨论经典强化学习算法的三个主要缺陷，以及克服这些缺陷的解决方案。

如何克服经典强化学习（RL）中遇到的下述缺陷：

图片由Varvara Grabova 在“Unsplash”杂志上提供

诸如Q-learning和REINFORCE等强化学习算法问世已经几十年了，教科书仍然广泛围绕它们。然而这些算法暴露出的一些根本的缺陷，极大地增加了一个良好策略进行学习的难度。

本文讨论经典强化学习算法的三个主要缺陷，以及克服这些缺陷的解决方案。

I. 选择高估值的动作

大多数RL算法在Q-learning算法基础上使用价值函数来捕获下游奖励，其中Q-learning算法的驱动机制是，它选择生成最高期望值的那个动作。由于初始化的不同，这种机制在尝试第一个操作时往往会卡住，所以通常选择概率为ϵ的随机操作，典型值设置为0.05左右。

在极限情况下，会无限频次地尝试每个动作，直到Q收敛到真实值。然而，实际经常是使用有限的样本，Q值就带偏差，因此问题是Q-learning算法会持续地选择高估值的动作！

想象一下，当玩两个相同的老虎机时，早期迭代中机器A碰巧给出了高于平均水平的奖励，所以它的Q值更高，继续玩机器A。于是，由于机器B使用更少，因此需要更长时间才能计算出Q值。即便实际上两台机器Q值相同。

从一般意义上来说，价值函数并不总是完美的，虽然RL更喜欢执行估值较高的动作，但不排除可能有时候RL会“奖励”估值低的动作——这显然不是理想的属性。

老虎机问题清楚证明了选择值溢出动作带来的影响[图源Bangyu Wang“Unsplash”杂志]

Q-learning算法的问题可以溯源到用相同的观察结果进行采样和更新的实践，通过使用一个策略进行采样并更新另一个策略来解耦这些步骤，这正是Q-learning（Van Hasselt，2010）所做的。

关注