目录
背景介绍
在DQN中,为了保证数据的有效性,采用了 Experience Replay Memory机制:
但是这种机制,存在几个问题:
1,会占据大块的内存;
2,学习是按mini-batch逐批串行学习的,数据吞吐量有限,学习速度慢;
3,off-policy,目标网络是旧的参数,生成sample data的网络参数也与当前不同。
探索既能提高数据吞吐量,又能保证数据有效性的并行算法,很有必要。
A3C模型
Asynchronous Advantage Actor-Critic是一种异步的基于优势函数的Actor-Critic并行学习算法:
Actor指需要学习的pol