量化软件——赫兹MT5神经网络变得简单 64 保守加权行为克隆CWB

我们在最近的文章中讨论的决策转换器,及其所有修改,都属于行为克隆(BC)方法。我们训练模型根据环境状态和目标结果,重复来自“专家”轨迹中的动作。因此,我们教导模型模仿专家在当前环境状态下的行为,从而达成目标。

然而,在真实条件下,不同专家对同一环境状态的评估差异很大。有时他们完全相悖。甚至,我想提醒您,在以前的工作中,我们未让专家参与创建我们的训练集。我们采用各种方法对智能体的动作进行采样,并选择最佳轨迹。这些轨迹并不总是最优的。

在连续的动作和场景空间中对轨迹进行采样的过程中,几乎不可能保存所有可能的选项。只有一小部分采样的轨迹才能至少部分满足我们的需求。这样的轨迹更像是模型在训练过程中可以简单地丢弃的异常值。

为了应对这种状况,我们采用的方式是出去探索方法。然后,用较小片段,我们陆续形成了一条成功的轨迹。这样的轨迹可谓之次优。它们接近我们的期望,但它们的最优性仍未得到实证。

当然,我们能据历史数据手工标记最优轨迹。这种方式令我们更接近监督学习,更贴合这种方式的所有优点和缺点。

同时,选择最优验算会助推模型处于理想条件,这可导致模型过度拟合。在这种情况下,模型在学习了训练样本的路线后,不能将获得的经验普适到新的环境状态。

行为克隆方法的第二个问题层面是为模型设定目标(在途回报,RTG)。我们在以前的工作中已讨论过这个问题。一些工作建议采用系数来吧训练集的结果最大化,这往往会产生更好的结果。但这种方式仅适用于解决静态问题。为每个任务分别选择这样的系数。控制二分法为这个问题提供了另一种方案。还有其它方法。

上面言及的问题由文章《离线强化学习的行为克隆可靠条件》的作者加以定位。为了解决这些问题,作者提出了一种相当有趣的方法,即保守加权行为克隆(CWBC),它不仅适用于决策转换器家族的模型。

1. 算法
为了辨别影响依赖于目标奖励的强化学习方法可靠性的因素,文章《离线强化学习的行为克隆可靠条件》的作者设计了两个阐述性实验。

在第一个实验中,他们在具有不同回报水平的轨迹数据集上运行不同架构的模型,从几乎随机级到专家级、和次优级。实验结果表明,模型的可靠性很大程度上取决于训练数据集的品质。当依据来自平均和专家返回轨迹的数据训练模型时,该模型在较高 RTG 条件下展现出可靠的结果。同时,当依据较低分数轨迹训练模型时,在 RTG 增加某个点后,其性能会迅速衰减。这是因为低品质的数据无法提供足够的信息来训练以高额奖励为条件的政策。这会对结果模型的可靠性产生负面影响。

数据品质并不是模型可靠性的唯一原因。模型架构也起着重要作用。在所进行的实验中,DT 在所有三个数据集中都展现出可靠性。假设 DT 可靠性是通过使用转换器架构实现的。由于智能体的下一个动作预测政策基于一系列环境状态,和 RTG 标记,因此关注度层可以忽略训练数据集分布之外的 RTG 标记。这也展示出良好的预测准确性。同时,基于 MLP 架构构建的模型接收当前状态,和 RTG 作为生成动作的输入数据,不能忽略有关所需奖励的信息。为了验证这一假设,作者的实验采用了略微修改的 DT 版本,其中环境和 RTG 向量在每个时间步骤都串联起来。因此,模型不能忽略序列中的 RTG 信息。实验结果表明,RTG 离开训练集分布后,该模型的可靠性迅速衰减。这确认了上述假设。

为了优化模型训练过程,并尽量减少上述因素的影响,文章作者建议采用“保守加权行为克隆(CWBC)”框架,这是一种相当简单,但又有效的方式,可提高现有方法训练行为克隆模型的可靠性。CWBC 由两部分组成:

轨迹加权
保守性 RTG 正则化
轨迹加权提供了一种系统性的途径,通过提升高回报轨迹的权重,把次优数据分布转换为更准确估值的最优分布。保守性损失正则化器鼓励政策保持接近原始数据分布,意向是大型目标。

1.1轨迹加权
我们知道,轨迹的最优离线分布就是由最优政策生成的演示分布。典型情况,轨迹的离线分布将相对于最优轨迹会有乖离。在训练期间,这会导致训练和测试之间的间隙,因为我们希望在评估和操作模型时,调节我们的智能体以便最大化其回报,但在训练期间强制把基于乖离数据分布的经验风险降至最低。

该方法的主要思路是将轨迹的训练样本转换为新的分布,以更好地估算最优轨迹。新的分布应该专注于高回报轨迹,其直觉上减轻了训练-测试的间隙。由于我们期待原始数据集包含很少的高回报轨迹,仅仅剔除低回报轨迹就会消除训练数据的大部分。这将导致数据效率低下。该方法的作者提议基于轨迹的回报对它们加权。

其中 λ、k 是判定变换分布形状的两个超参数。

平滑参数 k 控制如何基于轨迹的回报加权。直觉上,较小的 k 为高回报轨迹提供了更大的权重。随着参数值的增加,变换后的分布变得更加均匀。作者提议将 k 值设置为训练数据集中结果的最大值与第 z 个百分位数值之间的差值。

这令 k 的实际值能够适配不同的数据集。方法作者测试了来自集合 {99, 90, 50, 0} 中的四个 z 值,它们对应于四个递增的 k 值。根据每个数据集的实验结果,使用较小 k 值的变换分布高度集中在高奖励。随着 k 的递增,低回报轨迹的密度增加,分布变得更加均匀。基于来自集合 {99, 90, 50} 的百分位数,k 值相对较小,该模型在所有数据集上都表现出良好的性能。不过,基于百分位数 0 的较大 k 值会令专家轨迹数据集的性能降级。

参数 λ 也会影响变换分布。当 λ = 0 时,转换分布集中在高回报。随着 λ 的递增,变换后的分布趋向于本源,但由于指数项的影响,仍向高回报区域加权。具有不同 λ 值的模型的实际性能展现出相似的结果,比之在原始数据集上的训练结果更好或相当。

1.2保守性正则化
如上所述,架构在训练模型的可靠性方面也扮演着重要角色。理想化的场景很难、甚至不可能达成。但是 CWBC 方法的作者要求模型至少接近原始数据分布,从而避免 RTG 落在指定分布之外时发生灾难性故障。换句话说,政策必须是保守性的。然而,保守主义不一定来自架构,也可能来自适当的模型训练损失函数,就像通常基于状态和过渡成本估测的保守方法所做的那样。

该方法的作者提出了一种新的保守性正则化器,用于回报条件化的行为克隆方法,显式鼓励政策停留在接近原始数据分布。该思路是当条件化回报位于大量分布之外时,为了停留在接近分布内的动作,而强制执行预测动作。这是通过往拥有高回报轨迹里的 RTG 添加正值噪声,并惩罚预测动作与地面实况之间的 L2 距离来达成的。为了保证在分布之外产生较大的回报,我们生成噪音,如此这般调整后的 RTG 值不小于训练集中的最高回报。

作者提议将保守性正则化应用于回报率超过训练集中奖励的第 q 个百分位数的轨迹。这可确保当指定的 RTG 处于训练分布之外时,政策的行为类似于高回报轨迹,而非随机轨迹。我们在每个时间步骤添加噪声,并偏移 RTG。

方法作者进行的实验表明,采用第 95 个百分位数在各种环境和数据集中普遍效果很好。

该方法的作者指出,所提出的保守性正则化器与其它基于估测状态和转换成本的离线 RL 方法的保守性组件不同。虽然后者典型情况会尝试调整成本函数的估值,从而防止外推误差,但所拟议的方法扭曲了创建分布外条件、及调整动作预测的在途回报。

结合使用轨迹加权与保守性正则化器,我们得到了“保守加权行为克隆(CWBC)”,它结合了两全的优势。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值