基于Pytorch的强化学习(DQN)之 Overestimation

目录

1. 引言

2. Overestimation

2.1 Maximization

2.2 Bootstrapping

3. Solution

3.1 Target Network

3.2 Double DQN


1. 引言

我们现在来介绍在TD算法中出现的一类问题:高估(overestimation)。这个问题会极大地影响TD算法的准确性,下面来具体介绍高估问题和其解决方案。

2. Overestimation

我们所说的高估指的是对TD target y_t=r_t+\gamma \underset{a}{max}Q(s_{t+1},a;w) 的高估,下面是两种高估的产生原因。

2.1 Maximization

第一个原因就是最大化(maximization)导致的高估,问题就出在 \underset{a}{max}Q(s_{t+1},a;w) 的max上,下面我们来证明:

我们设真实的动作价值组成的集合为为 P=\left \{ x(a_1),x(a_2),...,x(a_n) \right \} 神经网络预测的动作价值组成的集合为为 Q=\left \{ Q(s,a_1;w),Q(s,a_2;w),...,Q(s,a_n;w) \right \},由于这是预测值,其中不可避免的会比真实值多出一些噪声,我们那么易得P\subseteq Q,那么自然就有E[max_iQ_i]\geq max_i(x_i)

 于是 \underset{a}{max}Q(s_{t+1},a;w) 总是要比真实值要大些,就是被高估了。

2.2 Bootstrapping

第另一种高估的产生原因是自提(bootstrapping)字面意思是我们用手提自己的鞋子以达到将自己提起来的目的,这在真实世界中是违背物理规律的,但是在强化学习中有另一种含义:

我们知道TD target是用来我们更新神经网络 Q(s_t,a_t;w)的目标值,由于Maximization我们知道\underset{a}{max}Q(s_{t+1},a;w)会不可避免地被高估,那么由于TD target中含有这一项,那么Q(s_t,a_t;w)就也会被高估,这样DQN中的高估变得更加严重。

 

 有点像正反馈调节。

3. Solution

下面介绍两种有效的解决方法

3.1 Target Network

第一种方法是再加入一个假的动作价值网络Target network Q(s_t,a;w^-) 他的参数与真实的动作价值网络不相同,但是结构一样,这个网络不用于指导agent进行决策,它的作用有两个:一个是选择最优动作a^*=argmaxQ(s_{t+1},a;w^-) 另一个是计算TD target y_t=r_t+\gamma \underset{a}{max}Q(s_{t+1},a^*,w^-) ,这个网络的参数也需要更新,但是不是一步一更新,而是隔几步更新一次,可以拷贝真实网络的参数也可以将真实网络的参数和原来的参数求平均后赋值即可,其本质上相当于滞后更新以抵消bootstrapping效应,但是maximization的问题没有解决。

3.2 Double DQN

另一种方法是也是加入一个Target network Q(s_t,a;w^-) 但是我们不让它两步都做,我们依然使用真实网络进行选择最优动作 a^*=argmaxQ(s_{t+1},a,w) ,再使用Target network进行计算TD target

y_t=r_t+\gamma Q(s_{t+1},a^*,w^-),就是这个区别减小了maximization效应,下面证明:

显然有 Q(s_{t+1},a^*,w^-)\leq \underset{a}{max}Q(s_{t+1},a;w^-) ,我们便得到最大化的程度减小,因此抵消部分最大化的影响,但是要注意的是,我们并没有完全消除maximization效应,因为Target network的参数随着真实网络变化,所以仍然存在最大化影响,只是消减了许多。

 一下是原始更新神经网络的方法和两种改进方法的对比:

 

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
DQN(Deep Q-Network)是一种使用深度神经网络实现的强化学习算法,用于解决离散动作空间的问题。在PyTorch中实现DQN可以分为以下几个步骤: 1. 定义神经网络:使用PyTorch定义一个包含多个全连接层的神经网络,输入为状态空间的维度,输出为动作空间的维度。 ```python import torch.nn as nn import torch.nn.functional as F class QNet(nn.Module): def __init__(self, state_dim, action_dim): super(QNet, self).__init__() self.fc1 = nn.Linear(state_dim, 64) self.fc2 = nn.Linear(64, 64) self.fc3 = nn.Linear(64, action_dim) def forward(self, x): x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x ``` 2. 定义经验回放缓存:包含多条经验,每条经验包含一个状态、一个动作、一个奖励和下一个状态。 ```python import random class ReplayBuffer(object): def __init__(self, max_size): self.buffer = [] self.max_size = max_size def push(self, state, action, reward, next_state): if len(self.buffer) < self.max_size: self.buffer.append((state, action, reward, next_state)) else: self.buffer.pop(0) self.buffer.append((state, action, reward, next_state)) def sample(self, batch_size): state, action, reward, next_state = zip(*random.sample(self.buffer, batch_size)) return torch.stack(state), torch.tensor(action), torch.tensor(reward), torch.stack(next_state) ``` 3. 定义DQN算法:使用PyTorch定义DQN算法,包含训练和预测两个方法。 ```python class DQN(object): def __init__(self, state_dim, action_dim, gamma, epsilon, lr): self.qnet = QNet(state_dim, action_dim) self.target_qnet = QNet(state_dim, action_dim) self.gamma = gamma self.epsilon = epsilon self.lr = lr self.optimizer = torch.optim.Adam(self.qnet.parameters(), lr=self.lr) self.buffer = ReplayBuffer(100000) self.loss_fn = nn.MSELoss() def act(self, state): if random.random() < self.epsilon: return random.randint(0, action_dim - 1) else: with torch.no_grad(): q_values = self.qnet(state) return q_values.argmax().item() def train(self, batch_size): state, action, reward, next_state = self.buffer.sample(batch_size) q_values = self.qnet(state).gather(1, action.unsqueeze(1)).squeeze(1) target_q_values = self.target_qnet(next_state).max(1)[0].detach() expected_q_values = reward + self.gamma * target_q_values loss = self.loss_fn(q_values, expected_q_values) self.optimizer.zero_grad() loss.backward() self.optimizer.step() def update_target_qnet(self): self.target_qnet.load_state_dict(self.qnet.state_dict()) ``` 4. 训练模型:使用DQN算法进行训练,并更新目标Q网络。 ```python dqn = DQN(state_dim, action_dim, gamma=0.99, epsilon=1.0, lr=0.001) for episode in range(num_episodes): state = env.reset() total_reward = 0 for step in range(max_steps): action = dqn.act(torch.tensor(state, dtype=torch.float32)) next_state, reward, done, _ = env.step(action) dqn.buffer.push(torch.tensor(state, dtype=torch.float32), action, reward, torch.tensor(next_state, dtype=torch.float32)) state = next_state total_reward += reward if len(dqn.buffer.buffer) > batch_size: dqn.train(batch_size) if step % target_update == 0: dqn.update_target_qnet() if done: break dqn.epsilon = max(0.01, dqn.epsilon * 0.995) ``` 5. 测试模型:使用训练好的模型进行测试。 ```python total_reward = 0 state = env.reset() while True: action = dqn.act(torch.tensor(state, dtype=torch.float32)) next_state, reward, done, _ = env.step(action) state = next_state total_reward += reward if done: break print("Total reward: {}".format(total_reward)) ``` 以上就是在PyTorch中实现DQN强化学习的基本步骤。需要注意的是,DQN算法中还有很多细节和超参数需要调整,具体实现过程需要根据具体问题进行调整。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值