强化学习之图解PPO和TD3算法 0. 引言 1. PPO算法 1.1 网络结构 1.2 产生experience的过程 1.3 Actor网络的更新流程 1.4 Critic网络的更新流程 2. TD3算法 2.1 网络结构 2.2 产生experience的过程 2.3 Actor网络的更新流程 2.4 Critic网络的更新流程 2.5 总结 0. 引言 关于on-policy和off-policy的定义,网上有很多不同的讨论,我认为,on-policy和off-policy的差异在于训练目标策略 所用到的数据 ( s , a , r , s ′ ) (s,a,r,s')