1、dqn算法基于q-learning计算q值。 2、使用小批量暂存训练数据(训练数据基于q-learing计算得出,并且在q的计算中,使用神经网络模拟q函数,一开始效果肯定很差)。 3、在收集到足够的小批量训练数据后,使用训练数据,训练q函数的神经网络参数。 4、依次不断迭代,越到后面,神经网络越拟合现实的q函数。 5、总的来说,就是使用神经网络模拟q函数,并不断训练q函数。