元强化学习(1):Meta-learning in Reinforcement Learning

强化学习在展现其强大学习能力的同时也深受其自身特性的困扰:系统的脆弱性和对超参数的依赖性。这一点在现今的复杂深度强化学习系统中表现的尤为突出。因此,近年来,元强化学习渐渐回归视线,即将基础强化学习方法中手动设定的超参数设定为元参数,通过元学习方法学习和调整元参数,进一步指导底层的强化学习过程。

打算最近介绍一个系列,今天先来说说这篇2003年的Meta-learning in Reinforcement Learning,虽然当时RL还没有和DL相结合,但是文章中的很多想法都很有预见性,同时与生物特性的联系讨论也很有启发性。

RL中的元参数

  • 学习率 α \alpha α: α \alpha α 控制训练速度,过小导致学习缓慢,过大则导致学习过程振荡。
  • 逆温度系数 β \beta β: 在依概率随机选取动作的设定下,往往采用 p ( a ∣ s ) = e β Q ( s , a ) ∑ a ′ e β Q ( s , a ′ ) p(a|s) = \frac{e^{\beta Q(s,a)}}{\sum_{a'}e^{\beta Q(s,a')}} p(as)=aeβQ(s,a)eβQ(s,a)其中 Q Q Q 为状态-动作值函数。此时逆温度系数 β \beta β 控制着探索-利用之间的权衡。理想情况下, β \beta β 在学习的初始阶段应该较小,因为此时智能代理还不能将动作很好地映射到其长期汇报,应该鼓励更多的探索;并且随着代理获得越来越大的奖励而逐渐增大。
  • 折扣因子 γ \gamma γ: γ \gamma γ 指示代理应该将未来多远的奖励纳入考虑范围。如果 γ \gamma γ 较小,则代理只考虑短期收益,如果 γ = 1
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值