【2020.7 arxiv】
Oh, Junhyuk, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh, and David Silver. “Discovering Reinforcement Learning Algorithms.” arXiv preprint arXiv:2007.08794 (2020).
任务:使用meta-learning方法学习通用的强化学习算法
解决自动去学习agent应该预测什么(价值函数)以及怎么使用预测结果来得到策略的问题,提出了Learned Policy Gradient(LPG)框架,不显式地约束agent预测输出的语义,而是使用meta-learner来决定应该预测什么
模型框架
目标:根据环境分布p(ε)和agent参数p(θ),学习最优的更新策略η(meta-learner)
G为累积奖励
LPG框架
agent输出策略π和预测向量
y
∈
[
0
,
1
]
m
y\in[0,1]^m
y∈[0,1]m
LPG为一个反向LSTM结果,输出如何更新策略
π
^
\hat{\pi}
π^和预测向量
y
^
\hat{y}
y^,输入为
其中
r
t
r_t
rt为激励值,
d
t
d_t
dt表示当前步是否为episode的结束
Agent的更新 θ \theta θ
π
^
\hat{\pi}
π^决定agent的动作概率应该如何调整,
y
^
\hat{y}
y^决定agent应该对给定状态预测的目标值
LPG的更新 η \eta η
增加一些正则项后变为
H
(
y
)
H(y)
H(y)和
H
(
π
)
H(π)
H(π)惩罚过于确定的预测和动作概率
平衡不同agent(不同游戏任务)中的超参 α \alpha α
使用
p
(
α
∣
ϵ
)
p(\alpha|\epsilon)
p(α∣ϵ)进行超参采样,而不使用确定的超参
R为奖励,N为累积次数
meta-train
meta-test
选择在验证集(breakout和boxing游戏)中效果最好的更新策略η,在其他59款atari游戏进行测试
f为一个与动作无关的baseline函数
实验
使用3种toy游戏进行训练
Tabular grid world在网格中固定位置给定激励
Random grid world 每个episode在网格的随机位置给定激励
Delayed chain MDPs 根据第一个动作决定激励,但是会延时一段时候后给出
在atari游戏中进行meta test
与A2C相比,不同游戏各有千秋
与目前最好的方法进行比较
预测向量y预测了什么
可以看到y的内容与policy有关,说明确实学习到了有意义的语义