强化学习在展现其强大学习能力的同时也深受其自身特性的困扰:系统的脆弱性和对超参数的依赖性。这一点在现今的复杂深度强化学习系统中表现的尤为突出。因此,近年来,元强化学习渐渐回归视线,即将基础强化学习方法中手动设定的超参数设定为元参数,通过元学习方法学习和调整元参数,进一步指导底层的强化学习过程。
打算最近介绍一个系列,今天先来说说这篇2003年的Meta-learning in Reinforcement Learning,虽然当时RL还没有和DL相结合,但是文章中的很多想法都很有预见性,同时与生物特性的联系讨论也很有启发性。
RL中的元参数
- 学习率 α \alpha α: α \alpha α 控制训练速度,过小导致学习缓慢,过大则导致学习过程振荡。
- 逆温度系数 β \beta β: 在依概率随机选取动作的设定下,往往采用 p ( a ∣ s ) = e β Q ( s , a ) ∑ a ′ e β Q ( s , a ′ ) p(a|s) = \frac{e^{\beta Q(s,a)}}{\sum_{a'}e^{\beta Q(s,a')}} p(a∣s)=∑a′eβQ(s,a′)eβQ(s,a)其中 Q Q Q 为状态-动作值函数。此时逆温度系数 β \beta β 控制着探索-利用之间的权衡。理想情况下, β \beta β 在学习的初始阶段应该较小,因为此时智能代理还不能将动作很好地映射到其长期汇报,应该鼓励更多的探索;并且随着代理获得越来越大的奖励而逐渐增大。
- 折扣因子 γ \gamma γ: γ \gamma γ 指示代理应该将未来多远的奖励纳入考虑范围。如果 γ \gamma γ 较小,则代理只考虑短期收益,如果 γ = 1