Deep Q Nework 方法:
训练数据采用随机经验回放。TD回退结合TargetQ网络预测预估出一个目标量,再用Q网络预测的现实值,目标量与现实值差值更新两个网络的参数集合。
DeepQ Network算法的详细解释:
需要明白两个概念,一个是Q网络,一个是targrtQ网络,Q网络是我们预测网络,targrt Q网络可以认为是我们的训练网络,训练的目标是找到目标Q值:,这里目标Q值的定义依据时间差分算法(n-step TD,一般采用单步时差更新,步数越长,参考的奖励值数量也越多,网络的远见能力越强,),认为目标Q