Actor-Critic网络 PPO是基于AC网络架构实现的。 Actor网络 PPO有一个Actor网络,Actor输入的维度为state_dim,即状态维数,输出维度为action_dim,意义是每个action的高斯策略的均值,另外,Actor网络还有action_dim个标准差参数,这样在输入一个state后,每个动作都对应一个一维的高斯分布。 Critic网络 PPO有一个Critic,Critic网络是用来拟合状态值函数 v π ( s