【论文阅读】Discovering Reinforcement Learning Algorithms

最新推荐文章于 2023-01-29 10:14:30 发布

huitailangyz

最新推荐文章于 2023-01-29 10:14:30 发布

阅读量434

点赞数 1

分类专栏：论文阅读强化学习

本文链接：https://blog.csdn.net/huitailangyz/article/details/107721052

版权

论文阅读同时被 2 个专栏收录

18 篇文章 2 订阅

订阅专栏

强化学习

3 篇文章 1 订阅

订阅专栏

【2020.7 arxiv】
Oh, Junhyuk, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh, and David Silver. “Discovering Reinforcement Learning Algorithms.” arXiv preprint arXiv:2007.08794 (2020).

任务：使用meta-learning方法学习通用的强化学习算法

解决自动去学习agent应该预测什么（价值函数）以及怎么使用预测结果来得到策略的问题，提出了Learned Policy Gradient（LPG）框架，不显式地约束agent预测输出的语义，而是使用meta-learner来决定应该预测什么

模型框架

在这里插入图片描述
目标：根据环境分布p(ε)和agent参数p(θ)，学习最优的更新策略η（meta-learner）

G为累积奖励

LPG框架

agent输出策略π和预测向量 $y\in[0,1]^m$
LPG为一个反向LSTM结果，输出如何更新策略 $\hat{\pi}$ 和预测向量 $\hat{y}$ ，输入为
在这里插入图片描述
其中 $r_t$ 为激励值， $d_t$ 表示当前步是否为episode的结束

Agent的更新 $\theta$

在这里插入图片描述
$\hat{\pi}$ 决定agent的动作概率应该如何调整， $\hat{y}$ 决定agent应该对给定状态预测的目标值

LPG的更新 $\eta$

在这里插入图片描述
增加一些正则项后变为

$H (y)$ 和 $H (π)$ 惩罚过于确定的预测和动作概率

平衡不同agent（不同游戏任务）中的超参 $\alpha$

使用 $p(\alpha|\epsilon)$ 进行超参采样，而不使用确定的超参
在这里插入图片描述
R为奖励，N为累积次数

meta-train

在这里插入图片描述

meta-test

选择在验证集（breakout和boxing游戏）中效果最好的更新策略η，在其他59款atari游戏进行测试
在这里插入图片描述
f为一个与动作无关的baseline函数

实验

使用3种toy游戏进行训练
Tabular grid world在网格中固定位置给定激励
Random grid world 每个episode在网格的随机位置给定激励
Delayed chain MDPs 根据第一个动作决定激励，但是会延时一段时候后给出

在atari游戏中进行meta test

在这里插入图片描述

与A2C相比，不同游戏各有千秋

与目前最好的方法进行比较

在这里插入图片描述

预测向量y预测了什么

在这里插入图片描述
可以看到y的内容与policy有关，说明确实学习到了有意义的语义

huitailangyz

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【论文阅读】Discovering Reinforcement Learning Algorithms

模型框架

LPG框架

Agent的更新 θ \theta θ

LPG的更新 η \eta η

平衡不同agent（不同游戏任务）中的超参 α \alpha α

meta-train

meta-test

实验

在atari游戏中进行meta test

与目前最好的方法进行比较

预测向量y预测了什么

Agent的更新 $\theta$

LPG的更新 $\eta$

平衡不同agent（不同游戏任务）中的超参 $\alpha$