RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

最新推荐文章于 2022-09-02 23:15:29 发布

taoyafan

最新推荐文章于 2022-09-02 23:15:29 发布

阅读量1.4k

点赞数 1

分类专栏：强化学习文章标签： DRL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/taoyafan/article/details/90582030

版权

强化学习专栏收录该内容

16 篇文章 16 订阅

订阅专栏

1 废话

开始要认真的读论文的，计划每天晚上回宿舍看一半，两天看完一篇，第三天写博客总结，虽然有点慢吧，但是积少成多嘛~

今天先介绍第一篇，也是深度强化学习的开山之作。

2 动机

一般把这篇论文称作深度强化学习的第一篇论文，该论文发表与2013年，受到2012年Hitton和学生Alex在image net获得冠军的影响，第一次将深度学习和强化学习结合，其实就是用了CNN做观测的处理。

3 内容

（1）观测的图像的预处理（后文提到的观测为预处理后的）：把210*160，128种颜色的转为灰度图，然后下采样得到110*84，然后裁剪为84*84。

（2）观测到状态的处理：将最近的4次的观测作为当前的状态，也就是网络的输入是84*84*4。

（3）网络结构：第一个隐藏层是16个8*8的卷积核，stride为4，激活函数为rectifier nonlinearity（我看不懂，是RELU吗？求解）；第二个隐藏层是32个4*4的卷积核，stride为2，激活函数同样为rectifier nonlinearity；第三个隐藏层是全连接，256个神经元；最后输出层同样是全连接，神经元个数与动作个数相同（4到18个）。

（4）经验回放（Experience Replay）：一个FIFO，大小为1000万。

（5）奖赏的设定：获得正的游戏分数时奖赏为1，负的为-1，否则为0.

（6）训练的过程：优化方法为RMSProp，batch size 为32，训练时使用 $\epsilon$ -greedy，其中 $\epsilon$ 在前100万次训练中从1降到0.1，之后一直未0.1.

（7）算法：如下图：

DQN算法

4 结果

测试了7个游戏，6个超越现有算法，3个超越人类顶尖选手，主要是算法具有通用性，不同的游戏网络结构和超参数基本一样，不需要先验知识，而当前算法需要很多专家知识，所以可以说是结果特别好吧。

参考：Playing Atari with Deep Reinforcement Learning

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。