回顾Qlearning
问题在哪? 样本强相关、不是梯度下降
相关性采样
用replay buffer解决:
多次采样
采样放在一起
但是,目标值没有梯度
Q-learning 用目标网络
经典DQN算法:
更加通用的观点
回顾Qlearning
问题在哪? 样本强相关、不是梯度下降
相关性采样
用replay buffer解决:
多次采样
采样放在一起
但是,目标值没有梯度
Q-learning 用目标网络
经典DQN算法:
更加通用的观点