离线强化学习（IQL/CQL）

原创

已于 2023-11-13 19:44:55 修改 · 5.3k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #机器学习

于 2023-04-06 16:23:46 首次发布

离线强化学习(ORL)通过已有的数据集进行学习，无需实时交互，适用于医疗、金融等领域。CQL通过限制策略探索范围解决分布偏移问题，而IQL利用SARSA目标和期望回归减少过估计风险，两者均在离线数据集上表现出色。ORL面临的挑战包括数据偏差和分布偏移，未来研究将继续解决这些问题。

离线强化学习（offline reinforcement learning，简称ORL）是一种利用已有的数据集进行强化学习的方法，不需要与环境进行实时交互。ORL的优点是可以节省采样成本，提高数据利用率，降低安全风险，适用于许多实际场景，如医疗、金融、推荐系统等。然而，ORL也面临着一些挑战，如数据偏差、探索-利用权衡、评估指标等。本文将对ORL的基本概念、主要方法、应用领域和未来发展进行分析。

ORL的核心问题是如何从一个固定的数据集中学习一个有效的策略，使其在未知的环境中表现良好。这个数据集通常由一个或多个行为策略（behavior policy）生成，可能与目标策略（target policy）不同。因此，ORL需要解决数据偏差（data mismatch）的问题，即数据集中的状态-动作分布与目标策略下的分布不一致。为了解决这个问题，ORL需要借助于一些技术，如重要性采样（importance sampling）、对抗性训练（adversarial training）、模型学习（model learning）等。

根据是否使用模型，ORL可以分为基于模型的方法（model-based methods）和基于模型无关的方法（model-free methods）。基于模型的方法通过从数据集中学习一个环境模型，然后利用该模型进行规划或控制，从而得到目标策略。基于模型无关的方法则直接从数据集中学习一个值函数或策略函数，不需要显式地建立环境模型。基于模型无关的方法又可以分为基于值函数的方法（value-based methods）和基于策略函数的方法（policy-based methods）。基于值函数的方法通过从数据集中学习一个状态-动作值函数或状态值函数，然后根据该值函数选择最优动作。基于策略函数的方法则直接从数据集中学习一个参数化的策略函数，不需要显式地计算值函数。