Non-delusional Q-learning and Value Iteration
1. 论文讲了什么/主要贡献是什么
文章发现了Q-learning和带有函数逼近或其它策略约束的近似动态规划中存在错觉偏差的问题,并且对错觉偏差进行了定义。发现了一个可以提升算法性能的方式。并且文中开发了一种新的策略类一致性备份操作符,以及相应的基于模型的PCVI和无模型的PCQL算法,这些算法完全消除了错觉偏差。
错觉偏差:在进行策略选择和值函数更新时,每步都采用了贪婪策略,选择了值函数最大对应的动作,但在一个策略下可能无法完成采用贪婪策略所选择的动作序列,因此在更新过程中的值函数与实际可达到的最优值函数也是存在偏差的。
2. 论文摘要:
We identify a fundamental source of error in Q-learning and other forms of dynamic programming with function approximation. Delusional bias arises when the approximation architecture limits the class of expressible greedy policies. Since standard Q-updates make globally uncoordinated action choices with respect to the expressible policy class, inconsistent or even conflicting Q-value estimates can result, leading to pathological behaviour such as over/under-estimation, instability and even divergence. To solve this problem, we introduce a new notion of policy consistency and define a local backup process that ensures global consistency through the use of information sets—sets that record constraints on policies consistent with backed-up Q-values. We prove that both the model-based and model-free algorithms using this backup remove delusional bias, yielding the first known algorithms that guarantee optimal results under general conditions. These algorithms furthermore only require polynomially many information sets (from a potentially exponential support). Finally, we suggest other practical heuristics for value-iteration and Q-learning that attempt to reduce delusional bias.
我们确定了Q-learning和其他形式的带有函数近似的动态规划的基本误差来源。当近似结构限制了可表达的贪婪策略的类别时,产生了错觉性偏差。由于标准的Q-updates对可表达的策略类做出全局不协调的行动选择,可能导致不一致甚至相互冲突的Q值估计,导致过度/低估、不稳定甚至发散等病态行为。为了解决这个问题,我们引入了一个新的策略一致性概念,并定义了一个本地备份过程,该过程通过使用信息集来确保全局一致性——这些信息集记录与备份的Q值一致的策略约束。我们证明使用这种备份的基于模型和无模型的算法都消除了错觉偏差,成为了在一般条件下保证最优结果的第一个已知算法。这些算法进一步只需要多项式多的信息集(来自潜在的指数支持)。最后,我们建议其他实用的启发式的价值迭代和Q-learning,试图减少错觉偏差。
3. 论文主要观点:
3.1 背景:
Q-learning的方法能够收敛到一个最优的状态-动作值函数,但是在使用函数逼近器,即使是简单的线性函数逼近器也会带来潜在的不稳定问题。目前有很多方法在调整更新方式、限制逼近器以及限制训练方法方面保证收敛性或提高逼近器表现。但是简单的调整可能无法保证达到最优表现,因为判断一个逼近器是否可以在最坏Bellman错误情况下有最小的误差是一个NP完全难题。因此设计一个Q-learning的具有好的最坏情况下的行为的变体仍然是一个问题。
3.2 问题:
Q-learning存在错觉偏差的问题。因为更新过程是基于相互不一致的值。出现这种不一致是因为Q更新是根据下一状态所有动作估计的最大值进行的,忽略了在逼近器中获得的可接受策略下无法实现选定动作的问题。这些“无约束”的更新会在目标值中产生错误,并导致不同的价值估计错误:Q-learning很容易根据贪婪策略类无法实现的操作选择来备份值。
3.3 方法:
首先说明一些符号表示, F = { f θ : S × A → R ∣ θ ∈ Θ } \mathcal{F}=\left\{f_{\theta}: S \times A \rightarrow \mathbb{R} | \theta \in \Theta\right\} F={
fθ:S×A→R∣θ∈Θ}表示可表示值函数逼近器集合,将可容许贪婪策略类表示为:
G ( Θ ) = { π θ ∣ π θ ( s