【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL

一、学习内容

3.基于神经网络方法求解RL

3.1函数逼近与神经网络

当状态空间非常庞大的时候,用Q表格来对Q-value进行评估,内存方面非常不现实。

因此可以加个w参数,改用值函数拟合的方法:

一个简单的例子如图所示,神经网络输出动作,定义损失函数,进行优化:

Q-learning的流程:

用神经网络:

3.2DQN算法解析

DQN的2大创新点在于:经验回放,和固定Q目标。分别是为了解决样本关联性和训练非平稳性问题。

经验回放,举个形象例子,前台小兵采样预测,S、A、R、S放入经验池,后台军师从经验池中进行学习

固定Q目标,就是隔一段时间拷贝一次到target网络,而不是每次都更新,增强训练的稳定性。

DQN算法整体流程如下:

画成流程图更方便理解:

写代码的时候则可以参考这个架构:

3.3PARL中DQN代码

DQN中agent的model可以这么定义:

DQN的算法可以这么来操作model,定义超参数:

固定Q目标、隔段时间同步,则可以定义sync函数:

predict()

learn()

agent的learn和build_programm()函数:

用于学习的sample()和predict()函数:

3.4DQN训练展示、总结

CartPole训练的例子:

训练流程:

训练代码:

测试代码:

PARL常用的API:

第3课的总结~~~

课后练习,Montain-Car的例子:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值