OfflineRL的重要环节-离线策略评估介绍

1 OPE简介

离线策略评估是强化学习中一种重要的技术,用于评估一个策略在某个环境中的性能,而不需要与环境进行实际交互。离线策略评估主要用于以下场景:

当前策略不适用于实际环境中的交互,但希望评估其性能。通过已有一些历史数据,利用这些数据来评估策略的性能。

OPE为MBRL过程的一个环境,具体见下图。整个流程为MBRL,红色框中就是OPE过程。


表2 离线策略评估方法对比

2离线评估算法

2.1 FQE (Fitted Q Evaluation)

FQE (Fitted Q Evaluation) 是一种基于拟合 Q 值的评估方法,用于估计强化学习任务中的价值函数。在 FQE 中,通过利用经验数据来拟合 Q 值函数,以评估当前策略的性能。

FQE 的目标是使用有限的样本数据近似地计算每个状态和动作对的 Q 值。通常,它使用函数逼近方法(如线性回归、神经网络等)来拟合 Q 值函数。FQE 不涉及策略改进或优化过程,而是专注于对当前策略的评估。

FQE的实现:

下面是FQE的具体实现流程:

2.2 重要性采样(IS)

通过重要性采样,我们可以将旧策略的历史数据重新加权,以估计新策略在环境中的期望回报。这样,我们就可以使用旧策略的历史数据来评估新策略的性能。

IS的实现步骤:

1.首先训练behaviorial policy模型(BC),behaviorial policy的输入为obs,输出为action。

2.通过Actor产生动作a1

3.训练数据中action换为通过Actor产生动作a1,得到recover_policy模型(BC)

4.遍历每条轨迹:

  计算behavior_policy和recover_policy下的负对数似然值的差值,记做ratio;计算折扣奖励

6.softmax(ratios)作为权重乘以每条轨迹的折扣奖励,然后求和。

下面是重要性采样法(IS)的具体实现流程:

2.3 Doubly Robust评估

这是关于双重修正算法(Doubly-Robust algorithm)的实现,用于计算以下方程:

DR的思想就是:在DM的基础上,利用IPS思想,增量计算策略评估值。DM估计是有偏的,但是方差较小;IPS估计是无偏的,但是方差较大。

DR的实现步骤:

1.首先训练behaviorial policy模型(BC),behaviorial policy的输入为obs,输出为action。

2--.训练了FQE的critic网络

3.通过Actor产生动作a1

4.训练数据中action换为通过Actor产生动作a1,得到recover_policy模型(BC)

5.遍历每条轨迹:

  计算behavior_policy和recover_policy下的负对数似然值的差值,记做ratio;

  --利用critic网络得到q_value和v_value

  通过q_value和v_value以及ratio计算DR值,具体如下。

6.得到所有轨迹的DR均值。

DR计算过程如下:

下面是重要性采样法(DR)的具体实现流程:

DR越大,代表性能越好。

2.4 MBOPE评估

MBOPE的实现步骤:

1. 训练得到trainsition模型

2. 采样一些数据,遍历采样的数据;

3. 利用actor模型得到‘动作’。

4. 利用trainsition模型得到后面20步的obs和动作,求出累计奖励

5. 得到所有样本的累计奖励的均值

2.5 AutoOPE评估

AutoOPE的实现步骤:

1. 构造AutoRegressiveTransition作为transition模型,并进行训练。

2. 采样一些数据,遍历采样的数据;

3. 利用actor模型得到‘动作’。

4. 利用trainsition模型得到后面200步的obs和动作,求出累计奖励

5. 得到所有样本的累计奖励的均值


3 Q&A:

  • 为啥OPE的FQE算法要用训练critic网络的训练集,采样去用作Q值预测。

   因为是通过固定actor网络在测试集上训练critic网络的,在测试集上能得到拟合这个测试集准确的Q值推断,所以用在测试集上在采样一些数据得到Q值,在进行均值得到结果,是合理的。每个actor模型都会拟合自己的一个critic去得到Q值。

  • 重要性采样法中的轨迹意思是什么?

     在强化学习中,重要性采样法的"轨迹"指的是由行为策略(behavior policy)生成的一系列状态-动作对,以及相应的奖励信号,形成的一个完整的样本序列。这个样本序列描述了智能体在环境中的一次运行轨迹或交互序列。

    一个轨迹通常包含从初始状态开始的一系列连续的状态、动作和奖励。智能体根据行为策略执行动作,并观察环境的反馈,包括下一个状态和即时奖励。这个过程一直持续到达到终止状态或达到预定的轨迹长度为止。

    重要性采样法的目标是使用由行为策略生成的这些轨迹样本,来估计目标策略(评估策略)在环境中的性能,而不需要直接对目标策略进行采样。通过采集多个轨迹样本,并使用重要性采样比例来纠正行为策略和目标策略之间的分布不匹配,可以得到对目标策略性能的估计。

轨迹在强化学习中是非常重要的概念,它代表了智能体与环境之间的交互过程,是智能体学习和决策的基础。重要性采样法的轨迹是在行为策略下生成的,但通过使用重要性采样,我们可以利用这些轨迹来估计目标策略的性能,从而实现策略评估和优化的目标。

  • 哪种离线评估方法较好?

描述了一种方法评估策略性能的指标,称为"Near-top Frequency"。该指标用于比较不同方法的性能,并计算出在相对均方误差(Relative MSE)最低的方法附近10%的频率。

   统计所有实验中,在相对均方误差最低的方法附近10%的方法的出现频率。如果某种方法的相对均方误差与最低方法的相对均方误差之差小于10%,则认为该方法是一种"top method"。

OPE算法性能优劣统计结果表如下:

           

OPE方法选用指导如下:

  • FQE和IS进行OPE时,偏差和方差的理解

偏差(Bias):偏差是指模型在估计值与真实值之间的平均误差。在OPE中,偏差表示我们使用的估计方法与真实的期望回报(或值函数)之间的差异。当估计方法具有偏差时,意味着它的预测结果整体上有一个系统性的错误,可能高估或低估真实值。较大的偏差意味着估计结果与真实值偏离较远。

方差(Variance):方差是指估计值在不同样本上的波动程度。在OPE中,方差表示我们的估计方法对样本的敏感性,以及同样大小的不同采样集合上的预测结果的不稳定性。较大的方差意味着估计结果在不同采样情况下变化较大,缺乏稳定性。

FQE是使用函数近似方法来估计值函数(Q函数)的方法。FQE通常具有较低的偏差,因为函数近似可以更好地拟合数据,但也可能有较高的方差,因为它对训练数据的依赖性较强,对不同的训练集可能得到不同的结果。

IS是用于在一个行为策略下评估另一个策略的价值。IS通常具有较低的方差,因为它可以有效地利用历史数据对目标策略的回报进行估计,但也可能有较高的偏差,特别是在两个策略之间差异较大时。

4. 参考文献:

南栖仙策 - 官方网站

代码和论文在官网都有,github也有路径。对于学习或者应用离线强化学习的学习者来说,是个非常好的资料。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值