贝尔曼方程和Policy Gradient
对于基于值函数的强化学习算法, 如DQN, 其以贝尔曼方程为准则构造梯度,优化产生值函数的网络参数;
对于基于策略的强化学习算法, 其以Policy Gradient为准则构造梯度,优化产生动作概率的网络参数.
- Policy Gradient分为Stochastic Policy 和 Deterministic Policy时的Gradient
- Stochastic Policy Gradient还可分为基于Monte-Carlo evaluation(REINFORCE) 和 temporal-difference learning(Actor-Critic)