基于神经网络的DQN方法

本文介绍了基于神经网络的Deep Q Network (DQN) 方法,重点讲述了DQN算法的训练过程,包括随机经验回放和Target Q网络的概念。通过时间差分算法确定目标Q值,并使用梯度下降策略更新Q网络和Target Q网络的参数。Experience Replay作为DQN的重要组成部分,通过存储和随机采样样本来改善学习效果。
摘要由CSDN通过智能技术生成

Deep Q Nework 方法:

训练数据采用随机经验回放。TD回退结合TargetQ网络预测预估出一个目标量,再用Q网络预测的现实值,目标量与现实值差值更新两个网络的参数集合。



DeepQ Network算法的详细解释:


需要明白两个概念,一个是Q网络,一个是targrtQ网络,Q网络是我们预测网络,targrt Q网络可以认为是我们的训练网络,训练的目标是找到目标Q值:,这里目标Q值的定义依据时间差分算法(n-step TD,一般采用单步时差更新,步数越长,参考的奖励值数量也越多,网络的远见能力越强,),认为目标Q

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值