【论文阅读】Discovering Reinforcement Learning Algorithms

【2020.7 arxiv】
Oh, Junhyuk, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh, and David Silver. “Discovering Reinforcement Learning Algorithms.” arXiv preprint arXiv:2007.08794 (2020).

任务:使用meta-learning方法学习通用的强化学习算法

解决自动去学习agent应该预测什么(价值函数)以及怎么使用预测结果来得到策略的问题,提出了Learned Policy Gradient(LPG)框架,不显式地约束agent预测输出的语义,而是使用meta-learner来决定应该预测什么

模型框架

在这里插入图片描述
目标:根据环境分布p(ε)和agent参数p(θ),学习最优的更新策略η(meta-learner)
在这里插入图片描述
G为累积奖励
在这里插入图片描述

LPG框架

agent输出策略π和预测向量 y ∈ [ 0 , 1 ] m y\in[0,1]^m y[0,1]m
LPG为一个反向LSTM结果,输出如何更新策略 π ^ \hat{\pi} π^和预测向量 y ^ \hat{y} y^,输入为
在这里插入图片描述
其中 r t r_t rt为激励值, d t d_t dt表示当前步是否为episode的结束

Agent的更新 θ \theta θ

在这里插入图片描述
π ^ \hat{\pi} π^决定agent的动作概率应该如何调整, y ^ \hat{y} y^决定agent应该对给定状态预测的目标值

LPG的更新 η \eta η

在这里插入图片描述
增加一些正则项后变为
在这里插入图片描述
H ( y ) H(y) H(y) H ( π ) H(π) H(π)惩罚过于确定的预测和动作概率

平衡不同agent(不同游戏任务)中的超参 α \alpha α

使用 p ( α ∣ ϵ ) p(\alpha|\epsilon) p(αϵ)进行超参采样,而不使用确定的超参
在这里插入图片描述
R为奖励,N为累积次数

meta-train

在这里插入图片描述

meta-test

选择在验证集(breakout和boxing游戏)中效果最好的更新策略η,在其他59款atari游戏进行测试
在这里插入图片描述
f为一个与动作无关的baseline函数

实验

使用3种toy游戏进行训练
Tabular grid world在网格中固定位置给定激励
Random grid world 每个episode在网格的随机位置给定激励
Delayed chain MDPs 根据第一个动作决定激励,但是会延时一段时候后给出

在atari游戏中进行meta test

在这里插入图片描述

与A2C相比,不同游戏各有千秋

与目前最好的方法进行比较

在这里插入图片描述

预测向量y预测了什么

在这里插入图片描述
可以看到y的内容与policy有关,说明确实学习到了有意义的语义

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值