文章目录
深度强化学习在运筹优化中的应用
作者:想要飞的猪
办公地点:北京科技大学
记录一下自己在学习深度强化学习的一些笔记,笔记内容大致分为下面几块内容。这个博客先发布一个目录,后面的内容会陆续更新。正文中的讲解基于Python中pytorch框架。
个人对于深度强化学习也是初学者,希望以后能跟大家一起学习进步。
1. 如何通过代码理解深度强化学习的架构
这里结合DDPG以及A2C的代码讲解深度强化学习的原理。选择DDPG与A2C是因为这两种算法对于Actor网络处理的方式不同:DDPG中连续动作的处理Actor网络给出一个确定性的动作;A2C中连续动作是Actor网络中分布的采样。
1.1 DDPG
1.2 A2C
2. Open AI中自定义的gym环境的搭建以及需要注意的问题
2.1 自定义gym中必备的function及其编写原则
2.2 自定义gym与深度强化学习算法的联合调试
2.2.1 与自己搭建的深度强化学习算法联合调试
2.2.2 Stable Baselines3算法的联合调试
这一部分会结合Stable Baselines3讲解深度强化学习中很多tricks。