reinforcement learning学习

最近研究了下RL,挺有意思的,在这里把心得写下来。


学习方式:

1,学习 MIT出的这本书《Reinforcement Learning: An Introduction》

非常不错的一本书,非常是和RL初学者,所讲概念清晰易懂、深入浅出。

关键概念:

Reward, Action, Value Function,  Markov Decision Process, TD, Q-learning


2,阅读RL相关论文

* Playing Atari with deep reinforcement learning (这篇论文是下一篇的原型)

本文利用RL的方法来玩一种电子游戏:atari 2600(一种我们小时候玩的游戏,比如里面有一个是坦克大战, 可以操纵坦克转向并发射炮弹)

其训练出来的网络,在很多游戏中,能够比人玩得更出色!

关键点:

RL里其实最麻烦也是最关键的是Value Function的计算,这篇文章中作者通过function approximation来近似Value Function;

Value Function的输入是一帧图像,输出是不同Action下Reward的期望值;(这个Value Function用的是DNN网络)

采用memory-replay方式进行训练;(将近期的experience缓存起来,每次训练网络的时候,从这个缓存里sample一些样本进行训练)


* Human level control through deep reinforcement learning (发表在nature上的一篇paper,内容与上一篇基本相同)

思想同上一篇


这篇文章有对应的源码,基于torch实现。

程序运行起来会占用较大内存(实际测试达到9G左右内存);

程序比较耗计算资源,最好用GPU,全部训练完也要十几天,实际发现训练两天左右后(大概1千万次迭代),能够达到一个比较好的状态(目测是这样的);




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值