元强化学习（1）：Meta-learning in Reinforcement Learning

最新推荐文章于 2024-03-04 02:09:12 发布

VIP文章南阁风起

最新推荐文章于 2024-03-04 02:09:12 发布

阅读量5.4k

点赞数 2

分类专栏：算法基础文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/qq_27465499/article/details/105101772

版权

强化学习在展现其强大学习能力的同时也深受其自身特性的困扰：系统的脆弱性和对超参数的依赖性。这一点在现今的复杂深度强化学习系统中表现的尤为突出。因此，近年来，元强化学习渐渐回归视线，即将基础强化学习方法中手动设定的超参数设定为元参数，通过元学习方法学习和调整元参数，进一步指导底层的强化学习过程。

打算最近介绍一个系列，今天先来说说这篇2003年的Meta-learning in Reinforcement Learning，虽然当时RL还没有和DL相结合，但是文章中的很多想法都很有预见性，同时与生物特性的联系讨论也很有启发性。

RL中的元参数

学习率 $\alpha$ : $\alpha$ 控制训练速度，过小导致学习缓慢，过大则导致学习过程振荡。
逆温度系数 $\beta$ : 在依概率随机选取动作的设定下，往往采用 $\frac{e^{\beta Q(s,a)}}{\sum_{a'}e^{\beta Q(s,a')}}$ 其中 $Q$ 为状态-动作值函数。此时逆温度系数 $\beta$ 控制着探索-利用之间的权衡。理想情况下， $\beta$ 在学习的初始阶段应该较小，因为此时智能代理还不能将动作很好地映射到其长期汇报，应该鼓励更多的探索；并且随着代理获得越来越大的奖励而逐渐增大。
折扣因子 $\gamma$ : $\gamma$ 指示代理应该将未来多远的奖励纳入考虑范围。如果 $\gamma$ 较小，则代理只考虑短期收益，如果

关注