1、深度网络
尽管神经网络和 Q表都可以用来近似动作价值函数,但是它们的形式是不一样的,Q表是一个二维表格,而神经网络是一个实实在在的函数。Q表只能描述离散的状态和动作下的价值,但神经网络在连续的情况下也可以满足。
2、经验回放
参考了神经网络的训练模式,即数据是从数据集中随机采样的(符合独立同分布),采取了将智能体和环境交互产生的样本先存储起来,然后通过采样的方式选取一批样本用来训练神经网络,这样能够保证loss的收敛更稳定和更快。
3、目标网络
其实还是为了辅助loss的收敛,我理解样本池里的样本并不够多,所以为了避免相邻采样关联性太强,所以需要目标网络的参数保持一定时间不变来维持收敛的稳定性。