基于Pytorch的强化学习(DQN)之 Baseline 基本概念

本文介绍了策略梯度算法的一种改进方法——设置Baseline,以加快收敛速度。通过数学推导,证明了引入不依赖于动作的量作为Baseline可以降低方差,而不改变期望的策略梯度。在蒙特卡罗模拟中,使用该方法进行随机梯度上升更新,从而提高策略网络的表现。文章还讨论了两种常见的Baseline选择,包括使用状态价值函数本身和预先计算的期望值,并解释了它们如何减少方差,促进算法更快收敛。
摘要由CSDN通过智能技术生成

目录

1. 引言

2. 数学推导

2.1 引理

2.2 改进的策略梯度

2.3 蒙特卡罗模拟

3. baseline的选择


1. 引言

我们前面讲过策略梯度下降算法 ,现在来介绍一种加快收敛速度的方法:设置Baseline。

2. 数学推导

我们之前推导过状态价值函数梯度的公式 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}Q_{\pi}(s,a)],以下证明源于这个公式。

2.1 引理

我们先证明一个引理:E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}\cdot b]=0 其中 b 是不依赖于 a 的量

Proof:E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}\cdot b]=\sum_a{\pi}(a|s_t,\theta) \frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}\cdot b=b\cdot \sum_a\frac{\partial \,\sum_a{\pi}(a|s;\theta)}{\partial \,\theta}=b\cdot \frac{\partial \,1}{\partial \,\theta}=0

这个 引理告诉我们:只要我们找到一个不依赖于 a 的量 b ,就有 E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}\cdot b]=0

2.2 改进的策略梯度

由 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}Q_{\pi}(s,a)] 与 E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}\cdot b]=0 我们得到 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}Q_{\pi}(s,a)]-E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}\cdot b]=0=E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}(Q_{\pi}(s,a)- b)]=0

这样我们便得到了策略梯度的新的表达式 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}(Q_{\pi}(s,a)- b)]

这里的 b 不依赖于 a ,我们称之为baseline,过这种方法我们可以降低方差同时不改变均值来使算法收敛更快 

2.3 蒙特卡罗模拟

类似于之前训练策略网络,由于表达式 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}(Q_{\pi}(s,a)- b)]含有期望,不好计算,于是我们使用蒙特卡罗近似这个期望,引入g(a)=\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}(Q_{\pi}(s,a)- b)

由于a\sim \pi(a|s) ,g(a) 本质上是一个随机梯度,且是 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta} 的一个unbiased estimation,所以我们利用随机梯度上升更新参数\theta\leftarrow\theta+\beta g(a),这样状态价值函数就会变大,也就是策略变得更优。

3. baseline的选择

我们知道只要 b 接近 Q_{\pi}(s,a)\frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a|s;\theta)}{\partial \,\theta}(Q_{\pi}(s,a)- b)]的方差就会变小,收敛速度就会加快,因此我们要选取合适的 b 来加快收敛速度,有两种常见的baseline的选取

第一种是 b=0 也就是原始的策略梯度,之前已经讲过,就不再赘述。另一种是 b=V_{\pi}(s) ,由于 s 先于 a 出现,于是b=V_{\pi}(s)不依赖于 a ,又由我们之前推导过的公式 V_{\pi}(s)=E_A[Q_{\pi}(s,a)]

我们知道 b=V_{\pi}(s) 是接近 Q_{\pi}(s,a) 的,这样便达到了减小方差的目的。

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
DQN(Deep Q-Network)是一种使用深度神经网络实现的强化学习算法,用于解决离散动作空间的问题。在PyTorch中实现DQN可以分为以下几个步骤: 1. 定义神经网络:使用PyTorch定义一个包含多个全连接层的神经网络,输入为状态空间的维度,输出为动作空间的维度。 ```python import torch.nn as nn import torch.nn.functional as F class QNet(nn.Module): def __init__(self, state_dim, action_dim): super(QNet, self).__init__() self.fc1 = nn.Linear(state_dim, 64) self.fc2 = nn.Linear(64, 64) self.fc3 = nn.Linear(64, action_dim) def forward(self, x): x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x ``` 2. 定义经验回放缓存:包含多条经验,每条经验包含一个状态、一个动作、一个奖励和下一个状态。 ```python import random class ReplayBuffer(object): def __init__(self, max_size): self.buffer = [] self.max_size = max_size def push(self, state, action, reward, next_state): if len(self.buffer) < self.max_size: self.buffer.append((state, action, reward, next_state)) else: self.buffer.pop(0) self.buffer.append((state, action, reward, next_state)) def sample(self, batch_size): state, action, reward, next_state = zip(*random.sample(self.buffer, batch_size)) return torch.stack(state), torch.tensor(action), torch.tensor(reward), torch.stack(next_state) ``` 3. 定义DQN算法:使用PyTorch定义DQN算法,包含训练和预测两个方法。 ```python class DQN(object): def __init__(self, state_dim, action_dim, gamma, epsilon, lr): self.qnet = QNet(state_dim, action_dim) self.target_qnet = QNet(state_dim, action_dim) self.gamma = gamma self.epsilon = epsilon self.lr = lr self.optimizer = torch.optim.Adam(self.qnet.parameters(), lr=self.lr) self.buffer = ReplayBuffer(100000) self.loss_fn = nn.MSELoss() def act(self, state): if random.random() < self.epsilon: return random.randint(0, action_dim - 1) else: with torch.no_grad(): q_values = self.qnet(state) return q_values.argmax().item() def train(self, batch_size): state, action, reward, next_state = self.buffer.sample(batch_size) q_values = self.qnet(state).gather(1, action.unsqueeze(1)).squeeze(1) target_q_values = self.target_qnet(next_state).max(1)[0].detach() expected_q_values = reward + self.gamma * target_q_values loss = self.loss_fn(q_values, expected_q_values) self.optimizer.zero_grad() loss.backward() self.optimizer.step() def update_target_qnet(self): self.target_qnet.load_state_dict(self.qnet.state_dict()) ``` 4. 训练模型:使用DQN算法进行训练,并更新目标Q网络。 ```python dqn = DQN(state_dim, action_dim, gamma=0.99, epsilon=1.0, lr=0.001) for episode in range(num_episodes): state = env.reset() total_reward = 0 for step in range(max_steps): action = dqn.act(torch.tensor(state, dtype=torch.float32)) next_state, reward, done, _ = env.step(action) dqn.buffer.push(torch.tensor(state, dtype=torch.float32), action, reward, torch.tensor(next_state, dtype=torch.float32)) state = next_state total_reward += reward if len(dqn.buffer.buffer) > batch_size: dqn.train(batch_size) if step % target_update == 0: dqn.update_target_qnet() if done: break dqn.epsilon = max(0.01, dqn.epsilon * 0.995) ``` 5. 测试模型:使用训练好的模型进行测试。 ```python total_reward = 0 state = env.reset() while True: action = dqn.act(torch.tensor(state, dtype=torch.float32)) next_state, reward, done, _ = env.step(action) state = next_state total_reward += reward if done: break print("Total reward: {}".format(total_reward)) ``` 以上就是在PyTorch中实现DQN强化学习的基本步骤。需要注意的是,DQN算法中还有很多细节和超参数需要调整,具体实现过程需要根据具体问题进行调整。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值