在actor-critic中,忽略policy gradient
策略迭代过程:
策略迭代用动态规划
简化动态规划:
采用NN估计值函数
拟合Q迭代
为什么算法是off-policy
在线Q-learning算法
总结
在actor-critic中,忽略policy gradient
策略迭代过程:
策略迭代用动态规划
简化动态规划:
采用NN估计值函数
拟合Q迭代
为什么算法是off-policy
在线Q-learning算法
总结