5.1 连续动作空间
tanh(x)用来限制输出的action范围在[-1,1],最后需要根据实际情况缩放。
5.2 DDPG(Deep Deterministic Policy Gradient)
5.2.1 DQN➡DDPG
DDPG除了需要学习Q网络,还需要学习策略网络。
5.2.2 Actor-Critic结构(评论家-演员)
策略网络——Actor
目标网络——Critic
目标网络(Target Network)&经验回放(Replay Memory)
5.3 PARL DDPG
5.3.1 PARL DDPG——model
import paddle.fluid as fluid
import parl
from parl import layers
class