【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL

FlyingPie

于 2020-06-26 21:32:00 发布

阅读量303

点赞数

分类专栏：深度学习文章标签：强化学习深度学习机器学习神经网络算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BobAuditore/article/details/106974745

版权

深度学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一、学习内容

3.基于神经网络方法求解RL

3.1函数逼近与神经网络

当状态空间非常庞大的时候，用Q表格来对Q-value进行评估，内存方面非常不现实。

因此可以加个w参数，改用值函数拟合的方法：

一个简单的例子如图所示，神经网络输出动作，定义损失函数，进行优化：

Q-learning的流程：

用神经网络：

3.2DQN算法解析

DQN的2大创新点在于：经验回放，和固定Q目标。分别是为了解决样本关联性和训练非平稳性问题。

经验回放，举个形象例子，前台小兵采样预测，S、A、R、S放入经验池，后台军师从经验池中进行学习

固定Q目标，就是隔一段时间拷贝一次到target网络，而不是每次都更新，增强训练的稳定性。

DQN算法整体流程如下：

画成流程图更方便理解：

写代码的时候则可以参考这个架构：

3.3PARL中DQN代码

DQN中agent的model可以这么定义：

DQN的算法可以这么来操作model，定义超参数：

固定Q目标、隔段时间同步，则可以定义sync函数：

predict（）

learn（）

agent的learn和build_programm()函数：

用于学习的sample()和predict()函数：

3.4DQN训练展示、总结

CartPole训练的例子：

训练流程：

训练代码：

测试代码：

PARL常用的API:

第3课的总结~~~

课后练习，Montain-Car的例子：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL

一、学习内容3.基于神经网络方法求解RL3.1函数逼近与神经网络当状态空间非常庞大的时候，用Q表格来对Q-value进行评估，内存方面非常不现实。因此可以加个w参数，改用值函数拟合的方法：一个简单的例子如图所示，神经网络输出动作，定义损失函数，进行优化：Q-learning的流程：用神经网络：3.2DQN算法解析DQN的2大创新点在于：经验回放，和固定Q目标。分别是为了解决样本关联性和训练非平稳性问题。经验回放，举个形象例子，前台小兵采样预测，
复制链接

扫一扫

专栏目录

FlyingPie CSDN认证博客专家 CSDN认证企业博客

码龄12年

20: 原创

14万+: 周排名

117万+: 总排名

8万+: 访问

: 等级

728: 积分

13: 粉丝

29: 获赞

7: 评论

64: 收藏

私信

关注

热门文章

分类专栏

机器学习 1篇
Linux 2篇
深度学习 13篇
工具 3篇
Python 2篇

最新评论

windows上的cuda8和cuda9切换，win10 + vs2015
我有明珠一颗: 太棒啦，我这边是为了配合tensorflow，甚至都不用把“Path中CUDA9的路径改成非实际路径”这一步，直接重启pycharm，就可以用了，显示：Successfully opened dynamic library cudart64_100.dll
windows上的cuda8和cuda9切换，win10 + vs2015
大扬哥啦啦啦: 你好请问使用python也是要重启vs么？还是怎么操作
windows上的cuda8和cuda9切换，win10 + vs2015
The_Matrix_: 总结的很好
Caffe多任务训练时忽略部分无用或未标注类标
gailysun: 作者好，请问你说的“多任务训练的时候，假设有N个任务，但部分图片类标不全，或者只对其中x（0<x<N）个任务有用，该怎么训练呢？这在tensorflow里面很好实现，合并loss的时候加上判断就行了”请问这个在tensorflow里具体是怎么操作的，求指教
N卡双显卡电脑装ubuntu15.04并配置Anaconda+Tensorflow+cuda+cuDNN的深度学习环境
monkey66da: 引用「monkey66da: 我没打过这个命令，不过首先你用的是15.04吗？...」我把我的安装经历写了下来，希望博主帮忙看下问题，谢谢！http://blog.csdn.net/u011918106/article/details/53352584

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。