DQN笔记

在这里插入图片描述
DQN基于Q-Learning,也就是说DQN也是一个离线算法,它第一个关注点是解决空间状态爆炸的问题,也就是说它不解决连续动作的问题
tip:何谓连续动作
例子,取值为(0,1)之间任意数为连续变量,动作包含连续变量的叫做连续动作
最基础的思想是用一个神经网络来拟合Q-Table里面的Q值。
用到了神经网络那么就有一个训练的问题,训练的数据哪里来,与环境交互。最基础的DQN数据存储(s,a,r,s’)数据用于训练
DQN里面的网络是一个监督学习的过程,其目标是真实值和估计值之间的差值最小,术语叫做TD-ERROR,用公式来表示的化:
在这里插入图片描述
这个代表的是真实值,是的,真实值也是估计出来的,基础的DQN用target_network来选取action,同时计算这个真实值里面的Q值,然后减去需要学习网络估计出来的Q值。得到td-error
而被更新的那个原来的那个网络是根据经验被更新的网络,通过上面那个标签值和网络估计值最小利用梯度下降法来求解更新网络参数。
target_network是隔C步才更新的网络。它的存在就是为了存储一下那个被更新网络的状态。不能一边更新,一边标签值也在变吧。它本身不学习,每隔C步,学习经验的网络会把参数赋给它
还需要说的一点就是经验回放机制,也就是为什么要把经验(s,a,r,s’)存起来再随机选取来更新网络呢。
因为你跑一次,前一步和后一步是有强关联性的,所以经验回放就是为了破除这些关联性,就是学习的两条记录是独立的两条记录

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值