总共两个主要点,1.动作价值函数衍生出的DQN等,一般使用误差
2.状态价值函数衍生出的状态价值函数。Policy Gradients 中无法使用策略的误差来构建损失函数,因为参数更新的目标是最大化累积奖励的期望值
通过对某含部分的神经网络模型化,或采用蒙特卡洛近似,或建立target网络衍生出一系列模型
1.DQN、双Q
2.
在强化学习中,对于离散化的动作的学习,都是以DQN为基础的,DQN则是通过的最大化动作价值函数 的方式去选择动作,往往都会过大的估计价值函数,从而造成误差。
Double Q-learning构建两个动作价值函数,一个用于估计动作,另外一个用于估计该动作的价值
2
B站王树森DRL