Policy Optimization 通常是on-policy的,也就是每次更新策略采用最新策略产生的数据。 Q-Learning 通常是Off-Policy的,这就意味着训练的数据可以是训练期间任意时刻的数据。