离线 Q 学习：全流程实现与多模型性能对比_使用离线数据训练q网络-CSDN博客

本文链接：https://blog.csdn.net/qq_36224726/article/details/144928465

近年来，离线强化学习（Offline Reinforcement Learning, Offline RL） 在人工智能领域逐渐崭露头角。其核心目标是通过历史交互数据学习最优策略，而无需与环境直接交互。相比传统强化学习，离线 Q 学习不仅降低了实验成本，更在医疗、金融、自动驾驶等领域展现了巨大潜力。

本文基于一份高质量的代码实现，从理论到实践，深入探讨了离线 Q 学习的核心技术。内容包括实验复现性保障、隐私保护、奖励重塑、回归模型实现以及离线 Q 学习的训练和评估流程。通过多种模型对比，我们不仅揭示了技术细节，还总结了性能与效率的平衡策略。

离线 Q 学习的完整技术框架

离线 Q 学习的核心任务是基于历史数据，学习状态-动作对的价值函数 Q(s,a)Q(s, a)Q(s,a)。这需要一个系统化的流程来保证从数据处理到模型评估的全面覆盖。在本文的代码实现中，整个框架被划分为以下几个主要模块：

1. 实验复现性保障

复现性是机器学习实验的重要基石，特别是在强化学习中，随机初始化和训练的不确定性可能导致结果的波动。代码中的 setup_seed 函数通过设置全局随机种子，确保实验结果在多次运行中具有一致性：

def setup_seed(seed=42):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

通过控制 numpy、torch 和 random 的随机性源，以及配置 cuDNN 的执行模式，我们可以有效减少实验结果的随机性，为后续的性能对比提供可靠的基础。

2. 数据读取与预处理

离线 Q 学习的起点是高质量的历史数据。在代码中，轨迹数据包括人口统计特征（demog）、系统状态（states）、动作（actions）、奖励（rewards）等，数据读取和预处理模块的职责是将这些信息加载并标准化。

数据读取：面向轨迹数据的高效解析

def read_trajectories(data_file: str):
    demog, states, interven