Actor-Critic算法有一个明显的缺点:当策略网络是深度模型时,沿着策略梯度更新参数,很有可能由于步长太长,策略突然显著变差,进而影响训练效果。
于是我们可以考虑在更新时找到一块信任区域(trust region),在这个区域上更新策略时是可以保证策略性能的安全性的,这就是信任区域优化(trust region policy optimization,TRPO)
下面我们需要确定策略目标,假设当前策略为π(θ),参数为θ,我们考虑如何借助当前θ找到一个更优的参数θ',使得J(θ')>=J(θ),又因为初始状态s0的分布和策略无关,因此策略π(θ)下的优化目标可以写成新策略π(θ')下的期望形式:
第三个等号其实是利用换元法使得求和从t=0开始,带进去得到的,基于以上等式我们可以推导出新旧策略的目标函数之间的差距:
将最后式子中的时序差分残差定义为优势函数A,则原式等于:
这里是由于期望含有s,a两个变量,所以使用嵌套期望,而最后一个等号是用到了状态访问分布的定义:,从而在最后的期望表达式中略去t这一参数,所以我们只要找到一个新策略,使得,就能保证策略性能单调递增,即J(θ')>=J(θ)。
但是直接求解这个式子非常困难,因为π(θ')是我们需要求解的策略,而我们又利用它来收集样本,这个是不现实的。由于新旧策略非常接近时,状态访问分布的变化很小,那么我们可以忽略两个策略之间的状态访问分布变化,直接采用旧的策略π(θ)的状态分布,定义如下替代优化目标:
上述式子中的动作仍然使用新策略π(θ')采样得到,这显然不满足我们的要求,于是我们可以采用重要性采样对动作分布进行处理:
重要性采样:用已知分布q(x)对目标分布p(x)进行近似,引入权重
w(x)=p(x)/q(x),则E[p(x)]=E[q(x)]*w(x)。
这样,我们就可以基于旧策略π(θ)已经采样出的数据来估计并优化新策略π(θ')了。而上述式子成立也需要一个条件,上文也有提到,就是需要保证新旧策略足够接近,于是TRPO使用了库尔贝克-莱布勒(KL)散度来衡量策略之间的距离,并给出了整体优化的公式:
第一个公式其实就是最大化目标,第二个公式是使得KL散度足够小,从而保证新旧策略足够接近,这一看就是一个带约束条件的求多元函数最大值问题,TRPO算法是采用直接求解,其实事实上我们可以采用拉格朗日乘数法化为无约束条件的优化问题,这其实就是后面的PPO惩罚算法。
这里的不等式约束定义了策略空间中的一个 KL 球,被称为信任区域。在这个区域中,可以认为当前学习策略和环境交互的状态分布与上一轮策略最后采样的状态分布一致,进而可以基于一步行动的重要性采样方法使当前学习策略稳定提升。
之后就是进行求解的问题了。
直接求解上式带约束的优化问题比较麻烦,TRPO 在其具体实现中做了一步近似操作来快速求解。为方便起见,我们在接下来的公式中用θ(k)代替之前的θ,表示第k次迭代之后的策略。首先对目标函数和约束在θ(k)进行多元函数的泰勒展开,对于目标函数和约数分别使用1阶、二阶泰勒展开进行近似:
其中,,表示目标函数的梯度,表示策略之间平均KL距离的黑塞矩阵(多元函数二阶偏导组成的矩阵,多元函数二阶展开需要使用黑塞矩阵以及矩阵的二次型,这是线性代数中的内容)。
于是优化目标变成了:
此时,我们可以用卡罗需-库恩-塔克(KKT)条件直接导出上述问题的解:
一般来说,用神经网络表示的策略函数的参数数量都是成千上万的,计算和存储黑塞矩阵H的逆矩阵会耗费大量的内存资源和时间。TRPO 通过共轭梯度法(conjugate gradient method)回避了这个问题,它的核心思想是直接计算,x即参数更新方向。假设满足KL距离约数的参数更新时的最大步长为β,于是,根据KL距离约束条件,有,求解β,得到。因此,此时参数更新方式为:
因此,只需要直接计算,就可以根据该式更新参数,问题转化为解,实际上H为对称正定矩阵,所以我们可以使用共轭梯度法来求解。共轭梯度法的具体流程下:
在共轭梯度运算过程中,直接计算α(k)和r(k+1)需要计算和存储黑塞矩阵H。为了避免这种大矩阵的出现,我们只计算HX向量,而不直接计算和存储黑塞矩阵,因为对于任意向量,容易验证:
即先用梯度和向量v点乘后再计算梯度。
然而,由于之前TRPO算法使用了泰勒展开的1阶和2阶近似,这样并非精准求解,因此,θ'可能未必比θ(k)好,或者未必能满足KL散度的限制。所以,TRPO算法在每次迭代的最后会进行依次线性搜索,以确保找到满足条件。具体来说,就是找到一个最小的非负整数i,使得参数更新后求出的θ(k+1)依然满足最初的KL散度限制,并且确实能够优化目标函数L,其中是一个决定线性搜索长度的超参数。
接下来没我们只需要完成对优势函数A的估计即可。我们采用广义优势估计(GAE),用表示时序差分误差,其中V是一个已经学习的状态价值函数。然后,我们利用多步时序差分思想,可以得到优势函数A(t):
然后,GAE将这些不同步数的优势估计进行指数加权平均:
其中,是在GAE中额外引入的一个超参数。当λ=0时,可以看作是只看一步差分得到的优势,当λ=1时,,则看每一步差分得到的优势的完全平均值。
下面我们给出GAE的实现:
def compute_advantage(gamma, lmbda, td_delta):
td_delta = td_delta.detach().numpy()
advantage_list = []
advantage = 0.0
#观察优势函数A的公式,根据多步时序差分思想,A为从这一步开始的时序差分残差加权求平均
#所以步数越后面,他的项数就越少,最后一步就只有一项δ(t+l),且系数为1,所以最终advantage列表需要翻转
#而下标越后面的delta其gamma和lmbda的次数越高,所以遍历时也需要翻转
for delta in td_delta[::-1]:
advantage = gamma * lmbda * advantage + delta
advantage_list.append(advantage)
advantage_list.reverse()
return torch.tensor(advantage_list, dtype=torch.float)
我们采用车杆环境和倒立摆环境来实践TRPO算法
导入库
import torch
import numpy as np
import gym
import matplotlib.pyplot as plt
import torch.nn.functional as F
import rl_utils
import copy
定义策略网络和价值网络(与Actor-Critic算法一样)
class PolicyNet(torch.nn.Module):
def __init__(self, state_dim, hidden_dim, action_dim):
super(PolicyNet, self).__init__()
self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
self.fc2 = torch.nn.Linear(hidden_dim, action_dim)
def forward(self, x):
x = F.relu(self.fc1(x))
return F.softmax(self.fc2(x), dim=1)
class ValueNet(torch.nn.Module):
def __init__(self, state_dim, hidden_dim):
super(ValueNet, self).__init__()
self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
self.fc2 = torch.nn.Linear(hidden_dim, 1)
def forward(self, x):
x = F.relu(self.fc1(x))
return self.fc2(x)
定义TRPO算法
class TRPO:
""" TRPO算法 """
def __init__(self, hidden_dim, state_space, action_space, lmbda,
kl_constraint, alpha, critic_lr, gamma, device):
state_dim = state_space.shape[0]
action_dim = action_space.n
# 策略网络参数不需要优化器更新,也就是不用梯度下降法进行更新,而是利用TRPO算法进行更新
self.actor = PolicyNet(state_dim, hidden_dim, action_dim).to(device)
self.critic = ValueNet(state_dim, hidden_dim).to(device)
self.critic_optimizer = torch.optim.Adam(self.critic.parameters(),
lr=critic_lr)
self.gamma = gamma
self.lmbda = lmbda # GAE参数
self.kl_constraint = kl_constraint # KL距离最大限制
self.alpha = alpha # 线性搜索参数
self.device = device
def take_action(self, state):
state = torch.tensor([state], dtype=torch.float).to(self.device)
#获取动作的概率分布
probs = self.actor(state)
#根据动作概率分布将连续动作离散化
action_dist = torch.distributions.Categorical(probs)
#采样
action = action_dist.sample()
return action.item()
def hessian_matrix_vector_product(self, states, old_action_dists, vector):
# 计算黑塞矩阵和一个向量的乘积
new_action_dists = torch.distributions.Categorical(self.actor(states))
kl = torch.mean(
torch.distributions.kl.kl_divergence(old_action_dists,
new_action_dists)) # 计算平均KL距离,近似为期望E,从而保证新旧策略的距离足够接近
#计算kl关于self.actor.parameters()参数的梯度,也就是对策略参数θ的梯度
#create_graph=True 表示要保留计算图用于计算高阶梯度(即计算梯度的梯度)
kl_grad = torch.autograd.grad(kl,
self.actor.parameters(),
create_graph=True)
#torch.cat()是拼接张量的函数
#代码中的循环部分 [grad.view(-1) for grad in kl_grad] 会遍历 kl_grad 中的梯度,并通过 grad.view(-1) 将每个梯度张量展平为一维张量。
#然后,torch.cat() 函数将这些展平的梯度张量沿着维度 0 进行连接,生成一个包含所有梯度的一维张量 kl_grad_vector。
kl_grad_vector = torch.cat([grad.view(-1) for grad in kl_grad])
# KL距离的梯度先和向量进行点积运算
kl_grad_vector_product = torch.dot(kl_grad_vector, vector)
#点积运算之后再次对θ求梯度
grad2 = torch.autograd.grad(kl_grad_vector_product,
self.actor.parameters())
#把所有梯度拼接成一个一维张量
grad2_vector = torch.cat([grad.view(-1) for grad in grad2])
#返回的是黑塞矩阵和向量vector的点积
return grad2_vector
def conjugate_gradient(self, grad, states, old_action_dists): # 共轭梯度法求解方程
#创建了一个和 grad 张量具有相同形状的全零张量 x
x = torch.zeros_like(grad)
#克隆grad张量
r = grad.clone()
p = grad.clone()
rdotr = torch.dot(r, r)
for i in range(10): # 共轭梯度主循环
#计算黑塞矩阵H乘以向量p
Hp = self.hessian_matrix_vector_product(states, old_action_dists,
p)
#计算α(k)
alpha = rdotr / torch.dot(p, Hp)
x += alpha * p
r -= alpha * Hp
new_rdotr = torch.dot(r, r)
if new_rdotr < 1e-10:
break
beta = new_rdotr / rdotr
p = r + beta * p
rdotr = new_rdotr
return x
def compute_surrogate_obj(self, states, actions, advantage, old_log_probs,
actor): # 计算策略目标
#新的动作状态分布的对数
#在线性搜索主循环之前,新旧log_probs是一样的
#只有当线性搜索主循环里面,这个时候才是不一样的
#但是为了一致性,所以这里写成log_probs,我们理解成新的动作状态分布对数
log_probs = torch.log(actor(states).gather(1, actions))
#这是利用重要性采样时对概率比率(权重)ratio的计算
#先对动作取对数,然后两个对数相减最后再指数一下,就是概率比率了
ratio = torch.exp(log_probs - old_log_probs)
#torch.mean可以看作是在求期望值,所以这里返回的是策略优化目标
return torch.mean(ratio * advantage)
def line_search(self, states, actions, advantage, old_log_probs,
old_action_dists, max_vec): # 线性搜索,得到更新参数
#线性搜索就是引入超参数α,利用对i(能提升策略并且满足KL距离限制的最小整数)从而找到符合的更新参数θ(k+1)
#根据参数的更新方式,我们需要用到旧的参数θ以及x,和黑塞矩阵与x的点积
#得到旧参数的向量
old_para = torch.nn.utils.convert_parameters.parameters_to_vector(
self.actor.parameters())
#计算旧的策略目标,用于比较新的策略目标的可行性
old_obj = self.compute_surrogate_obj(states, actions, advantage,
old_log_probs, self.actor)
for i in range(15): # 线性搜索主循环
coef = self.alpha**i
#进行参数更新
new_para = old_para + coef * max_vec
#深拷贝一个策略网络
new_actor = copy.deepcopy(self.actor)
#将新参数new_para转化为新策略网络的参数,从而得到了一个新的策略网络
torch.nn.utils.convert_parameters.vector_to_parameters(
new_para, new_actor.parameters())
#得到新的动作分布
new_action_dists = torch.distributions.Categorical(
new_actor(states))
#计算KL距离
kl_div = torch.mean(
torch.distributions.kl.kl_divergence(old_action_dists,
new_action_dists))
#计算新的策略目标
new_obj = self.compute_surrogate_obj(states, actions, advantage,
old_log_probs, new_actor)
#如果能最大化目标并且在KL距离限制之内,则返回新的参数
if new_obj > old_obj and kl_div < self.kl_constraint:
return new_para
#否则仍用旧参数
return old_para
def policy_learn(self, states, actions, old_action_dists, old_log_probs,
advantage): # 更新策略函数的参数
#计算策略目标,然后对其求梯度
surrogate_obj = self.compute_surrogate_obj(states, actions, advantage,
old_log_probs, self.actor)
#策略目标对策略函数的参数求梯度
grads = torch.autograd.grad(surrogate_obj, self.actor.parameters())
#通过调用 .detach() 方法,我们将连接后的结果张量 obj_grad 进行截断,使其与计算图分离,不再具有梯度
#这对于一些情况下的计算效率和内存管理是有益的
obj_grad = torch.cat([grad.view(-1) for grad in grads]).detach()
# 用共轭梯度法计算x = H^(-1)g
#求解出x,即参数的更新方向
descent_direction = self.conjugate_gradient(obj_grad, states,
old_action_dists)
#计算x与黑塞矩阵的点积
Hd = self.hessian_matrix_vector_product(states, old_action_dists,
descent_direction)
#满足KL距离约数的参数更新时的最大步长β
max_coef = torch.sqrt(2 * self.kl_constraint /
(torch.dot(descent_direction, Hd) + 1e-8))
#descent_direction*max_coef得到max_vec,然后进行线性搜索,得到新的参数
new_para = self.line_search(states, actions, advantage, old_log_probs,
old_action_dists,
descent_direction * max_coef) # 线性搜索
torch.nn.utils.convert_parameters.vector_to_parameters(
new_para, self.actor.parameters()) # 用线性搜索后的参数更新策略
#更新价值网络和策略函数
def update(self, transition_dict):
states = torch.tensor(transition_dict['states'],
dtype=torch.float).to(self.device)
actions = torch.tensor(transition_dict['actions']).view(-1, 1).to(
self.device)
rewards = torch.tensor(transition_dict['rewards'],
dtype=torch.float).view(-1, 1).to(self.device)
next_states = torch.tensor(transition_dict['next_states'],
dtype=torch.float).to(self.device)
dones = torch.tensor(transition_dict['dones'],
dtype=torch.float).view(-1, 1).to(self.device)
#计算时序差分目标
td_target = rewards + self.gamma * self.critic(next_states) * (1 -
dones)
#计算时序差分残差
td_delta = td_target - self.critic(states)
#计算优势函数,作为更新策略函数的参数
advantage = compute_advantage(self.gamma, self.lmbda,
td_delta.cpu()).to(self.device)
#得到旧的动作状态分布的对数,作为更新策略函数的参数
old_log_probs = torch.log(self.actor(states).gather(1,
actions)).detach()
#利用动作概率分布将连续动作离散化,得到一个动作空间,作为更新策略函数的参数
old_action_dists = torch.distributions.Categorical(
self.actor(states).detach())
critic_loss = torch.mean(
F.mse_loss(self.critic(states), td_target.detach()))
self.critic_optimizer.zero_grad()
critic_loss.backward()
self.critic_optimizer.step() # 更新价值函数
# 更新策略函数
self.policy_learn(states, actions, old_action_dists, old_log_probs,
advantage)
设置超参数,进行车杆环境
num_episodes = 500
hidden_dim = 128
gamma = 0.98
lmbda = 0.95
critic_lr = 1e-2
kl_constraint = 0.0005
alpha = 0.5
device = torch.device("cuda") if torch.cuda.is_available() else torch.device(
"cpu")
env_name = 'CartPole-v0'
env = gym.make(env_name)
#env.seed(0) 利用这个更新种子的数据误差很大
env.reset(seed=0)
torch.manual_seed(0)
agent = TRPO(hidden_dim, env.observation_space, env.action_space, lmbda,
kl_constraint, alpha, critic_lr, gamma, device)
return_list = rl_utils.train_on_policy_agent(env, agent, num_episodes)
episodes_list = list(range(len(return_list)))
plt.plot(episodes_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('TRPO on {}'.format(env_name))
plt.show()
mv_return = rl_utils.moving_average(return_list, 9)
plt.plot(episodes_list, mv_return)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('TRPO on {}'.format(env_name))
plt.show()
下面进行倒立摆环境的实践,由于倒立摆环境的动作是连续的,所以策略网络和算法有些许不同
对于策略网络,因为环境动作是连续的,所以策略网络分别输出表示动作分布的高斯分布的均值和标准差。
class PolicyNetContinuous(torch.nn.Module):
def __init__(self,state_dim,hidden_dim,action_dim):
super(PolicyNetContinuous,self).__init__()
self.fc1=torch.nn.Linear(state_dim,hidden_dim)
self.fc_mu=torch.nn.Linear(hidden_dim,action_dim)
self.fc_std=torch.nn.Linear(hidden_dim,action_dim)
def forward(self,x):
x=F.relu(self.fc1(x))
mu=2.0*torch.tanh(self.fc_mu(x)) #运用双曲正切函数生成均值
std=F.softplus(self.fc_std(x)) #利用softplus确保生成的标准差是非负的
return mu,std #高斯分布的均值和标准差
定义处理连续动作的TRPO算法
class TRPOContinuous:
""" 处理连续动作的TRPO算法 """
def __init__(self, hidden_dim, state_space, action_space, lmbda,
kl_constraint, alpha, critic_lr, gamma, device):
state_dim = state_space.shape[0]
action_dim = action_space.shape[0]
self.actor = PolicyNetContinuous(state_dim, hidden_dim,
action_dim).to(device)
self.critic = ValueNet(state_dim, hidden_dim).to(device)
self.critic_optimizer = torch.optim.Adam(self.critic.parameters(),
lr=critic_lr)
self.gamma = gamma
self.lmbda = lmbda
self.kl_constraint = kl_constraint
self.alpha = alpha
self.device = device
def take_action(self, state):
state = torch.tensor([state], dtype=torch.float).to(self.device)
mu, std = self.actor(state)
action_dist = torch.distributions.Normal(mu, std) #创建一个正态分布对象,均值为mu,标准差为std
action = action_dist.sample()
return [action.item()]
def hessian_matrix_vector_product(self,
states,
old_action_dists,
vector,
damping=0.1):
mu, std = self.actor(states)
new_action_dists = torch.distributions.Normal(mu, std)
kl = torch.mean(
torch.distributions.kl.kl_divergence(old_action_dists,
new_action_dists))
kl_grad = torch.autograd.grad(kl,
self.actor.parameters(),
create_graph=True)
kl_grad_vector = torch.cat([grad.view(-1) for grad in kl_grad])
kl_grad_vector_product = torch.dot(kl_grad_vector, vector)
grad2 = torch.autograd.grad(kl_grad_vector_product,
self.actor.parameters())
grad2_vector = torch.cat(
[grad.contiguous().view(-1) for grad in grad2])
#加上damping*vector是引入了阻尼项,控制梯度更新的幅度,防止优化过程过度调整模型参数,以及在高度曲折的损失函数表面上引发不稳定的震荡。
#通过调整阻尼系数 damping 的值,可以平衡数值稳定性和收敛速度之间的折衷。较大的阻尼系数可以提高数值稳定性,但可能导致收敛速度较慢;
#较小的阻尼系数可以提高收敛速度,但可能导致数值不稳定。
return grad2_vector + damping * vector
def conjugate_gradient(self, grad, states, old_action_dists):
x = torch.zeros_like(grad)
r = grad.clone()
p = grad.clone()
rdotr = torch.dot(r, r)
for i in range(10):
Hp = self.hessian_matrix_vector_product(states, old_action_dists,
p)
alpha = rdotr / torch.dot(p, Hp)
x += alpha * p
r -= alpha * Hp
new_rdotr = torch.dot(r, r)
if new_rdotr < 1e-10:
break
beta = new_rdotr / rdotr
p = r + beta * p
rdotr = new_rdotr
return x
def compute_surrogate_obj(self, states, actions, advantage, old_log_probs,
actor):
mu, std = actor(states)
action_dists = torch.distributions.Normal(mu, std)
#计算给定动作在正态分布下的对数概率密度
log_probs = action_dists.log_prob(actions)
ratio = torch.exp(log_probs - old_log_probs)
return torch.mean(ratio * advantage)
def line_search(self, states, actions, advantage, old_log_probs,
old_action_dists, max_vec):
old_para = torch.nn.utils.convert_parameters.parameters_to_vector(
self.actor.parameters())
old_obj = self.compute_surrogate_obj(states, actions, advantage,
old_log_probs, self.actor)
for i in range(15):
coef = self.alpha**i
new_para = old_para + coef * max_vec
new_actor = copy.deepcopy(self.actor)
torch.nn.utils.convert_parameters.vector_to_parameters(
new_para, new_actor.parameters())
mu, std = new_actor(states)
new_action_dists = torch.distributions.Normal(mu, std)
kl_div = torch.mean(
torch.distributions.kl.kl_divergence(old_action_dists,
new_action_dists))
new_obj = self.compute_surrogate_obj(states, actions, advantage,
old_log_probs, new_actor)
if new_obj > old_obj and kl_div < self.kl_constraint:
return new_para
return old_para
def policy_learn(self, states, actions, old_action_dists, old_log_probs,
advantage):
surrogate_obj = self.compute_surrogate_obj(states, actions, advantage,
old_log_probs, self.actor)
grads = torch.autograd.grad(surrogate_obj, self.actor.parameters())
obj_grad = torch.cat([grad.view(-1) for grad in grads]).detach()
descent_direction = self.conjugate_gradient(obj_grad, states,
old_action_dists)
Hd = self.hessian_matrix_vector_product(states, old_action_dists,
descent_direction)
max_coef = torch.sqrt(2 * self.kl_constraint /
(torch.dot(descent_direction, Hd) + 1e-8))
new_para = self.line_search(states, actions, advantage, old_log_probs,
old_action_dists,
descent_direction * max_coef)
torch.nn.utils.convert_parameters.vector_to_parameters(
new_para, self.actor.parameters())
def update(self, transition_dict):
states = torch.tensor(transition_dict['states'],
dtype=torch.float).to(self.device)
actions = torch.tensor(transition_dict['actions'],
dtype=torch.float).view(-1, 1).to(self.device)
rewards = torch.tensor(transition_dict['rewards'],
dtype=torch.float).view(-1, 1).to(self.device)
next_states = torch.tensor(transition_dict['next_states'],
dtype=torch.float).to(self.device)
dones = torch.tensor(transition_dict['dones'],
dtype=torch.float).view(-1, 1).to(self.device)
rewards = (rewards + 8.0) / 8.0 # 对奖励进行修改,方便训练
td_target = rewards + self.gamma * self.critic(next_states) * (1 -
dones)
td_delta = td_target - self.critic(states)
advantage = compute_advantage(self.gamma, self.lmbda,
td_delta.cpu()).to(self.device)
mu, std = self.actor(states)
old_action_dists = torch.distributions.Normal(mu.detach(),
std.detach())
old_log_probs = old_action_dists.log_prob(actions)
critic_loss = torch.mean(
F.mse_loss(self.critic(states), td_target.detach()))
self.critic_optimizer.zero_grad()
critic_loss.backward()
self.critic_optimizer.step()
self.policy_learn(states, actions, old_action_dists, old_log_probs,
advantage)
设置超参数
num_episodes = 2000
hidden_dim = 128
gamma = 0.9
lmbda = 0.9
critic_lr = 1e-2
kl_constraint = 0.00005
alpha = 0.5
device = torch.device("cuda") if torch.cuda.is_available() else torch.device(
"cpu")
env_name = 'Pendulum-v1'
env = gym.make(env_name)
env.reset(seed=0)
torch.manual_seed(0)
agent = TRPOContinuous(hidden_dim, env.observation_space, env.action_space,
lmbda, kl_constraint, alpha, critic_lr, gamma, device)
return_list = rl_utils.train_on_policy_agent(env, agent, num_episodes)
episodes_list = list(range(len(return_list)))
plt.plot(episodes_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('TRPO on {}'.format(env_name))
plt.show()
mv_return = rl_utils.moving_average(return_list, 9)
plt.plot(episodes_list, mv_return)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('TRPO on {}'.format(env_name))
plt.show()
用 TRPO 在与连续动作交互的倒立摆环境中能够取得非常不错的效果,这说明 TRPO 中的信任区域优化方法在离散和连续动作空间都能有效工作。