RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

1 废话

开始要认真的读论文的,计划每天晚上回宿舍看一半,两天看完一篇,第三天写博客总结,虽然有点慢吧,但是积少成多嘛~

今天先介绍第一篇,也是深度强化学习的开山之作。

2 动机

一般把这篇论文称作深度强化学习的第一篇论文,该论文发表与2013年,受到2012年Hitton和学生Alex在image net获得冠军的影响,第一次将深度学习和强化学习结合,其实就是用了CNN做观测的处理。

3 内容

(1)观测的图像的预处理(后文提到的观测为预处理后的):把210*160,128种颜色的转为灰度图,然后下采样得到110*84,然后裁剪为84*84。

(2)观测到状态的处理:将最近的4次的观测作为当前的状态,也就是网络的输入是84*84*4。

(3)网络结构:第一个隐藏层是16个8*8的卷积核,stride为4,激活函数为rectifier nonlinearity(我看不懂,是RELU吗?求解);第二个隐藏层是32个4*4的卷积核,stride为2,激活函数同样为rectifier nonlinearity;第三个隐藏层是全连接,256个神经元;最后输出层同样是全连接,神经元个数与动作个数相同(4到18个)。

(4)经验回放(Experience Replay):一个FIFO,大小为1000万。

(5)奖赏的设定:获得正的游戏分数时奖赏为1,负的为-1,否则为0.

(6)训练的过程:优化方法为RMSProp,batch size 为32,训练时使用\epsilon-greedy,其中\epsilon在前100万次训练中从1降到0.1,之后一直未0.1.

(7)算法:如下图:

DQN算法

4 结果

测试了7个游戏,6个超越现有算法,3个超越人类顶尖选手,主要是算法具有通用性,不同的游戏网络结构和超参数基本一样,不需要先验知识,而当前算法需要很多专家知识,所以可以说是结果特别好吧。

 

参考:Playing Atari with Deep Reinforcement Learning

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值