IMPALA示例代码和公式解释

YH美洲大蠊

已于 2024-04-02 17:09:19 修改

阅读量407

点赞数 5

文章标签：机器学习

于 2024-04-02 17:06:53 首次发布

本文链接：https://blog.csdn.net/YHKKun/article/details/137276306

版权

IMPALA（Importance Weighted Actor-Learner Architectures）是由DeepMind提出的一种用于大规模并行化训练强化学习模型的框架。它旨在克服传统强化学习算法在分布式计算环境下效率低下的问题，通过利用多个Actor并行地生成样本轨迹，并将这些轨迹汇总到一个中央的Learner进行学习和更新。IMPALA通过利用分布式计算资源和重要性加权的概念，有效地解决了大规模并行化训练强化学习模型时面临的挑战，提高了训练效率和性能。

IMPALA的一个主要特征是将Actor和Learner（即Critic）解耦，并利用分布式计算加速训练过程。

IMPALA的核心思想包括以下几个方面：

并行化训练：IMPALA利用多个环境并行地执行Agent（通常称为Actor），这些Agent在不同的环境中相互独立地与环境进行交互，生成样本轨迹。
重要性加权：由于并行生成的样本可能具有不同的重要性，IMPALA使用重要性加权的方法来确保对不同样本的梯度更新进行适当的加权，以确保训练的稳定性和效率。
分布式学习：IMPALA采用分布式学习框架，将从多个Actor收集到的样本汇总到一个中央的Learner节点，该节点负责更新模型参数。这种分布式学习能够充分利用大规模计算资源，加速训练过程。
优势函数估计：IMPALA还使用优势函数（Advantage Function）来评估动作的优劣，以指导策略更新。这有助于提高学习的效率和稳定性。

import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim

# 定义环境
class Environment:
    def __init__(self):
        self.num_actions = 3  # 动作空间大小
        self.state_dim = 5  # 状态空间维度

    def reset(self):
        # 重置环境并返回初始状态
        return torch.randn(self.state_dim)

    def step(self, action):
        # 在环境中执行动作并返回下一个状态、奖励和结束标志
        next_state = torch.randn(self.state_dim)
        reward = torch.randn(1)  # 这里假设奖励是随机的
        done = False  # 这里假设每个episode最多运行max_steps_per_episode步
        return next_state, reward, done

# 定义Actor网络
class ActorNetwork(nn.Module):
    def __init__(self, num_actions):
        super(ActorNetwork, self).__init__()
        self.dense1 = nn.Linear(5, 64)  # 输入维度为状态维度，输出维度为64
        self.dense2 = nn.Linear(64, num_actions)  # 输出维度为动作空间大小，即num_actions
        self.softmax = nn.Softmax(dim=-1)  # 对动作概率进行softmax归一化

    def forward(self, inputs):
        x = torch.relu(self.dense1(inputs))
        return self.softmax(self.dense2(x))

# 定义Critic网络
class CriticNetwork(nn.Module):
    def __init__(self):
        super(CriticNetwork, self).__init__()
        self.dense1 = nn.Linear(5, 64)  # 输入维度为状态维度，输出维度为64
        self.dense2 = nn.Linear(64, 1)  # 输出维度为1，表示状态值

    def forward(self, inputs):
        x = torch.relu(self.dense1(inputs))
        return self.dense2(x)

# 初始化环境、Actor和Critic
env = Environment()
actor_network = ActorNetwork(env.num_actions)
critic_network = CriticNetwork()

# 设置优化器
actor_optimizer = optim.Adam(actor_network.parameters(), lr=0.001)
critic_optimizer = optim.Adam(critic_network.parameters(), lr=0.001)

# 设置超参数
num_episodes = 1000
max_steps_per_episode = 100
gamma = 0.99

# IMPALA主循环
for episode in range(num_episodes):
    state = env.reset()

    for t in range(max_steps_per_episode):
        # Actor根据当前状态选择动作
        action_probs = actor_network(state)
        action = torch.multinomial(action_probs, num_samples=1).squeeze().item()
            
        # 与环境交互，获得下一个状态和奖励
        next_state, reward, done = env.step(action)
            
        # 计算优势函数
        critic_value = critic_network(state)
        next_critic_value = critic_network(next_state)
        advantage = reward + gamma * next_critic_value - critic_value
            
        # 计算Actor和Critic的损失
        actor_loss = -(torch.log(action_probs[0, action]) * advantage).mean()
        critic_loss = (advantage ** 2).mean()
            
        # 清零梯度
        actor_optimizer.zero_grad()
        critic_optimizer.zero_grad()
        
        # 计算梯度
        actor_loss.backward()
        critic_loss.backward()
        
        # 更新Actor和Critic的参数
        actor_optimizer.step()
        critic_optimizer.step()
        
        if done:
            break

        state = next_state

策略（Policy）：
- 公式： $a_t \sim \pi(a|s)$ ，表示在状态 $s$ 下根据策略 $\pi$ 选择动作 $a_t$ 。
- 代码：action = torch.multinomial(action_probs, num_samples=1).squeeze().item()
优势函数（Advantage Function）：
- 公式： $A(s, a) = Q(s, a) - V(s)$ ，表示动作 $a$ 在状态 $s$ 下的优势。
- 代码：advantage = reward + gamma * next_critic_value - critic_value
Actor的损失函数：
- 公式： $L_{\text{actor}} = -\log(\pi(a|s)) \cdot A(s, a)$ ，表示Actor的损失函数，目标是最大化优势函数的期望。
- 代码：actor_loss = -(torch.log(action_probs[0, action]) * advantage).mean()
Critic的损失函数：
- 公式： $L_{\text{critic}} = (A(s, a))^2$ ，表示Critic的损失函数，目标是最小化优势函数的方差。
- 代码：critic_loss = (advantage ** 2).mean()
策略梯度更新：
- 代码：actor_optimizer.step()，使用优化器更新Actor网络参数，以最大化Actor损失函数。（梯度上升）
值函数梯度更新：
- 代码：critic_optimizer.step()，使用优化器更新Critic网络参数，以最小化Critic损失函数。