强化学习系列（8）：分层强化学习（Hierarchical Reinforcement Learning，HRL）原理与应用

DoYangTan

于 2025-03-13 16:07:25 发布

阅读量1.1k

点赞数 26

分类专栏：强化学习系列文章标签：人工智能深度学习学习

本文链接：https://blog.csdn.net/azperk/article/details/146234017

版权

强化学习系列专栏收录该内容

15 篇文章

订阅专栏

强化学习系列（8）：分层强化学习（Hierarchical Reinforcement Learning，HRL）原理与应用

一、分层强化学习（HRL）基本原理

背景与目标

在面对复杂的现实世界强化学习任务时，传统的单层次强化学习算法往往面临诸多挑战，比如状态空间和动作空间过大、任务目标复杂且具有多个子目标等。分层强化学习（HRL）旨在通过构建层次化的结构，将复杂任务分解为多个相对简单的子任务，每个子任务在不同层次上进行学习和优化，从而提高学习效率，更有效地解决复杂问题。

核心思想

HRL的核心思想是引入层次结构，将整个强化学习过程划分为多个层次，高层次的策略负责制定宏观的、长期的目标和决策，低层次的策略则负责执行具体的、短期的动作来实现这些目标。不同层次之间相互协作，通过层层递进的方式来完成复杂任务，就如同人类在完成复杂工作时会先规划大框架，再细化具体操作一样。

层次间的交互机制

高层次策略产生的指令或目标会传递给低层次策略，低层次策略基于接收到的信息在当前环境下采取具体动作，并将执行结果反馈给高层次策略，高层次策略再根据反馈进行调整和进一步决策，如此循环往复，实现整个任务的逐步推进。

二、HRL的常见模型和方法

选项框架（Options Framework）

基本概念：选项框架是HRL中一种重要的表示形式，它将一个动作序列抽象为一个“选项”，可以看作是介于宏观目标和微观动作之间的一种中间概念。一个选项包含三个要素：起始条件（决定何时可以启动该选项）、策略（在选项执行过程中采取的具体动作策略）以及终止条件（决定何时结束该选项的执行）。
示例应用场景：在一个大型游戏环境中，比如模拟城市建设游戏，高层次策略可能决定要建造一个商业区（这就是一个选项的宏观目标），其起始条件可能是当前城市有足够的资金和合适的土地，然后在执行这个选项的过程中，低层次策略会根据具体情况采取诸如购买土地、雇佣工人、建造具体商业建筑等一系列动作，当商业区的所有规划建筑都建造完成或者资金不足等情况出现时，满足终止条件，该选项结束，高层次策略再基于此进行下一步决策，比如接着考虑建设住宅区等其他目标。

分层深度Q网络（Hierarchical DQN）

网络结构特点：分层深度Q网络在传统DQN的基础上进行扩展，构建了多层的网络结构。高层次的网络负责学习高层次的状态价值和选择高层次的动作（如对应选项的选择等），低层次的网络则针对具体的动作空间进行Q值估计和动作选择。不同层次网络之间通过特定的信息传递机制进行交互，例如高层次网络输出的决策信息会作为低层次网络的部分输入，影响低层次网络的动作选择。
训练方式：在训练时，既要考虑各层次网络自身的Q值更新和策略优化，又要考虑层次间交互带来的影响，通过合理设置奖励机制，使得不同层次网络都朝着有利于完成整体复杂任务的方向学习。比如在机器人复杂任务规划场景中，高层次网络根据机器人的整体任务目标（如完成一个物料搬运任务，包含多个阶段）来选择阶段任务对应的选项，低层次网络则根据具体阶段的环境情况选择具体的动作（如控制机器人的关节运动等），训练过程中根据任务完成进度和具体动作的效果给予相应的奖励反馈，以更新各层次网络的参数。

三、HRL应用代码示例（以机器人复杂物料搬运任务为例）

import gymnasium as gym
import torch
import torch.nn as nn
import torch.optim as optim

# 定义高层次策略网络（用于选择选项，这里简单示例，可根据实际调整结构）
class HighLevelPolicyNetwork(nn.Module):
    def __init__(self, input_size, option_size):
        super(HighLevelPolicyNetwork, self).__init__()
        self.fc1 = nn.Linear(input_size, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, option_size)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return torch.softmax(self.fc3(x), dim=1)

# 定义低层次策略网络（用于具体动作选择，类似传统DQN结构，可按需扩展）
class LowLevelPolicyNetwork(nn.Module):
    def __init__(self, input_size, action_size):
        super(LowLevelPolicyNetwork, self).__init__()
        self.fc1 = nn.Linear(input_size, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, action_size)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return torch.softmax(self.fc3(x), dim=1)

# HRL训练过程
def train_hrl(high_level_net, low_level_net, num_episodes, gamma):
    env = gym.make('RobotMaterialHandlingEnv-v0')  # 假设的机器人物料搬运环境
    high_level_optimizer = optim.Adam(high_level_net.parameters(), lr=0.001)
    low_level_optimizer = optim.Adam(low_level_net.parameters(), lr=0.001)

    for episode in range(num_episodes):
        state, _ = env.reset()
        high_level_state = state[:len(state) // 2]  # 假设划分高层次状态和低层次状态
        low_level_state = state[len(state) // 2:]
        done = False

        while not done:
            # 高层次策略选择选项
            high_level_action_probs = high_level_net(torch.tensor(high_level_state, dtype=torch.float).unsqueeze(0))
            high_level_action = torch.multinomial(high_level_action_probs, num_samples=1).item()

            # 根据高层次选择的选项，设置低层次状态和目标（这里简化示意，实际可能更复杂）
            option_specific_state = low_level_state + [high_level_action]
            low_level_action_probs = low_level_net(torch.tensor(option_specific_state, dtype=torch.float).unsqueeze(0))
            low_level_action = torch.multinomial(low_level_action_probs, num_samples=1).item()

            # 执行低层次动作，获取环境反馈
            next_state, reward, terminated, truncated, _ = env.step(low_level_action)
            done = terminated or truncated

            high_level_next_state = next_state[:len(next_state) // 2]
            low_level_next_state = next_state[len(next_state) // 2:]

            # 计算高层次和低层次的回报及更新网络（简化示例，实际需更细致处理）
            high_level_return = reward + gamma * torch.max(high_level_net(torch.tensor(high_level_next_state, dtype=torch.float).unsqueeze(0)))
            low_level_return = reward + gamma * torch.max(low_level_net(torch.tensor(low_level_next_state, dtype=torch.float).unsqueeze(0)))

            high_level_loss = -torch.log(high_level_net(torch.tensor(high_level_state, dtype=torch.float).unsqueeze(0))[0][high_level_action]) * high_level_return
            low_level_loss = -torch.log(low_level_net(torch.tensor(option_specific_state, dtype=torch.float).unsqueeze(0))[0][low_level_action]) * low_level_return

            high_level_optimizer.zero_grad()
            high_level_loss.backward()
            high_level_optimizer.step()

            low_level_optimizer.zero_grad()
            low_level_loss.backward()
            low_level_optimizer.step()

            high_level_state = high_level_next_state
            low_level_state = low_level_next_state

    env.close()

四、HRL与传统单层次强化学习算法在复杂场景下的性能对比

实验设置

选取多个复杂的强化学习场景，如大型游戏中的复杂任务通关（例如《星际争霸》等游戏中完成多阶段、多目标的任务）、机器人复杂任务规划（包含多个子任务和不同阶段的物料搬运、装配等任务）以及智能交通系统中的综合调度（涉及多个路口、多辆车的协同调度等）。分别使用HRL（以分层深度Q网络为例）和传统单层次强化学习算法（如DQN、PPO等）进行训练，保持相同的训练轮数、超参数范围（如学习率、折扣因子等尽量一致，仅调整各算法特有的参数），记录各算法在不同环境下的平均奖励、收敛速度、策略稳定性以及对复杂任务的完成度等性能指标。

实验结果分析

平均奖励方面：在复杂场景下，HRL通常能获得更高的平均奖励。因为它通过将复杂任务分解，各层次策略能够更有针对性地学习和优化，更好地应对不同阶段和子任务的需求，从而更有效地获取奖励，而传统单层次算法面对庞大的状态空间和复杂的任务目标，可能难以找到高效的策略来最大化奖励，容易陷入局部最优或者在复杂任务中迷失方向。
收敛速度方面：HRL在初期可能收敛速度相对较慢，由于需要同时学习多个层次的策略以及协调层次间的交互，其训练过程相对复杂，需要一定时间来调整各层次网络的参数。然而，随着训练的推进，一旦各层次策略开始协同工作，其收敛速度会逐渐加快，后期往往能比传统单层次算法更快地达到较好的性能表现，传统单层次算法在复杂场景下可能会因为状态空间和动作空间过大等问题，长时间在低性能区域徘徊，收敛困难。
策略稳定性方面：HRL通过层次化的结构，将复杂任务分割，不同层次各司其职，使得策略更新相对更加稳定。高层次策略的宏观决策为低层次策略提供了相对稳定的指导框架，低层次策略在具体执行时的反馈也有助于高层次策略平稳调整，整体上避免了策略的大幅波动。传统单层次算法在复杂场景中，由于要直接处理所有的状态和动作信息，策略更新容易受到大量不确定因素的影响，可能出现不稳定的情况，比如频繁在不同的局部最优之间切换等。
对复杂任务的完成度方面：HRL明显更具优势，它能够将复杂任务拆解为多个可管理的子任务，并通过层次间的协作逐步完成整个任务，对于具有多阶段、多目标的复杂任务，其完成度往往更高。传统单层次算法在面对这类复杂任务时，可能很难把握整体任务的脉络，难以协调不同阶段的动作和目标，导致任务完成度较低。

五、常见问题及解决思路

1. HRL中层次间信息传递不畅或不协调怎么办？

优化状态表示和信息整合方式：仔细检查高层次和低层次策略所使用的状态表示是否合理，确保高层次状态能够准确反映宏观情况，低层次状态能包含执行具体动作所需的关键信息，并且可以考虑增加一些辅助信息来帮助层次间更好地传递和整合，比如在低层次状态中添加高层次决策的编码信息等，使低层次策略能更好地理解高层次目标并执行相应动作。
调整层次间交互机制：对层次间的交互方式进行调整，例如改变高层次指令传递给低层次的形式，使其更明确、更具可操作性；或者优化低层次反馈给高层次的信息内容和格式，让高层次策略能更准确地根据反馈进行调整决策，可以通过增加中间的协调模块或者修改现有交互代码逻辑来实现。

2. HRL训练过程中各层次策略收敛不一致怎么办？

差异化调整学习率和超参数：分析各层次策略网络的特点和训练难度，尝试为不同层次设置不同的学习率，对于较难收敛的层次适当降低学习率，使其学习过程更平稳；同时，检查其他超参数（如网络结构、激活函数等）是否适合该层次的任务，根据实际情况进行调整，例如对于高层次策略可能需要更简单的网络结构来捕捉宏观特征，而低层次策略可能需要更精细的结构来应对具体动作选择。
增加协同训练机制：引入一些协同训练的手段，比如定期将各层次策略的参数进行同步调整，或者设置联合的奖励机制，使得各层次策略在训练时不仅关注自身的目标，也能考虑对其他层次的影响，促使它们朝着协同收敛的方向发展，可以通过修改损失函数或者添加额外的约束项来实现这种协同训练机制。

六、下期预告：多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）原理与应用

在**强化学习系列（9）**中，您将学习到：

多智能体强化学习（MARL）的基本原理和核心思想，理解它是如何处理多个智能体在同一环境中交互学习的情况的。
MARL的常见模型和方法，包括独立Q学习（Independent Q-Learning）、深度确定性策略梯度算法的多智能体扩展（MADDPG）等，以及它们各自的特点和应用场景。
通过实际代码示例展示MARL在机器人团队协作、游戏中的多人对战等复杂场景中的应用，并对比分析其与单智能体强化学习算法在这些场景下的性能表现。