用深度强化学习玩atari游戏_（一）深度强化学习·入门从游戏开始（序）

最新推荐文章于 2024-07-13 12:07:33 发布

weixin_39968319

最新推荐文章于 2024-07-13 12:07:33 发布

阅读量793

点赞数 1

文章标签：用深度强化学习玩atari游戏

（一）深度强化学习·入门从游戏开始（序）

1.深度强化学习所需要具备的知识基础

请不用担心，深度强化学习并不是很艰深的领域，所需要的知识基础主要包括以下2个领域：

强化学习
神经网络

既然是深度强化学习，强化学习肯定是不可少的基础知识。主要需要了解的强化学习内容包括

强化学习的五个基本要素及其之间的关系
马尔科夫链以及马尔可夫过程的相关概念
Bellman Equation（贝尔曼方程）
DP (动态规划) 主要包括value iteration 和 policy iteration

当然也需要具备神经网络包括深层神经网络的相关知识，包括

神经网络的基本结构及应用场景
反向传播及梯度下降原理
神经网络所需要克服的缺陷及优化方式
各类变体包括CNN RNN LSTM ResNet等及原理

当你具备以上知识，哪怕不是掌握的非常到位，你都可以通过本系列文章对深度强化学习有一个不错的认识。

2.本系列文章所面向的人群及写作初衷

笔者也是深度学习的技术爱好者，对于深度强化学习的了解也不是非常深入，只是希望做一个入门级别的介绍，也是对自己这段时间对深度强化学习研究的一个总结。希望看到这系列文章的你是对深度强化学习领域有浓厚兴趣并坚信深度强化学习是人工智能未来方向的人，深度强化学习在众多领域已经展现出了人类无法到达的智能，以谷歌DeepMind为代表的一系列杰出成果，告诉人们即便仍处于摸索阶段的深度强化学习，已经展现出了超人的学习能力。

3.本系列文章的计划

入门从游戏开始
当我们换成另外一个游戏时
对强化学习中值迭代和动作迭代的一种实现——深度网络的一个引子
搭建深度Q值网络（DQN）及背后的思考
策略梯度下降（PG）和它的瓶颈
大名鼎鼎的A2C和A3C模型，为什么它们更优?
连续动作空间上我们该怎么调整我们的模型
DeepMind对连续空间提出的策略——DDPG与P4DG
奇思妙想的另类深度强化学习方法——ES+GA
八小时战胜AlphaGo.version18——AlphaGo Zero

愿意阅读英文书籍以及阅读后续文章源码的读者，笔者推荐
github上的深度强化学习入门

weixin_39968319

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。