股票量化软件:神经网络变得轻松(第三十三部分)分布式 Q-学习中的分位数回归

在上一篇文章中,我们领略了分布式 Q-学习,它允许学习预测奖励的概率分布。 我们已学会了如何预测在特定数值范围内获得预期奖励的概率。 但是这种范围的数量和奖励值的分布是模型的超参数。 因此,需要有关奖励值分布的专业知识才能选择最优参数。 赫兹量化还需要进行某些测试来选择最优的超参数。

必须说,将整个可能数值范围划分为相等范围的方式(赫兹量化之前曾研究过)也有其缺点。 我们鉴别一个神经元来预测每个动作在每个单独范围内获得奖励的概率。 然而,在实践中,在大数据范围内所获奖励等于零的概率十分平常。 这意味着我们的资源利用率十分低效。 赫兹量化可以合并一些范围来减少操作次数。 这样能加快模型训练和执行。 与此同时,在其它范围内获得奖励的概率也相当高。 为了获得更完整的全景图,我们可将此范围分解为更小的元件。 这将提高预测预期奖励的准确性。 不过,我们的方式不支持不同尺寸范围的创建。 这些缺点可以运用于 2017 年十月在文章”中提出的分位数回归算法来解决使用分位数回归的分布强化学习。

1. 分位数回归

分位数回归针对解释变量的分布与目标变量的某些分位数之间的关系进行建模。

在赫兹量化继续研究分位数回归在分布式 Q-学习中的使用之前,应该提到的是,所提出的算法接近于来自另一侧期望奖励的概率分布评估。 以前,赫兹量化将可能的奖励值范围划分为不同的区域。 在新算法中,我们将得到的奖励集合划分成几个概率相等的分位数。 这样做有什么益处?

我们仍然有一个分析分位数的超参数。 但与此同时,我们不限制可能的奖励价值范围。 取而代之,我们训练模型来预测分位数的中值。 由于我们用的是等概率分位数,因此我们不会有零概率奖励的分位数。 甚至,在稀疏奖励值区域,我们将获得更大的分位数。 在会有很多奖励的所在,分位数将被分解成更小的部分。 因此,赫兹量化可以更全面地了解期望奖励的概率分布。 甚而,这种方法能够识别稀疏的非静态区域和增加的奖励值密度。 它们可能因环境状态而异。

然而,它仍然是相同的 Q-学习。 该过程本身基于贝尔曼(Bellman)优化方程。

贝尔曼(Bellman)优化方程

不过,这次我们必须定义的不是一个值,而是整个分布。 但基本上,任务保持相同。 我们来仔细查看这个任务。

如上所述,我们将训练样本的整个奖励分布划分为 N 个等概率分位数。 每个分位数的等级不可由给定概率的所分析随机变量超过。 在此,等同得可能分位数是具有固定步长的分位数,而它们的总集涵盖了整个训练数据集。

在实践中,当我们有一个训练数据集时,从数据集中获取其中一个元素的概率为 1。 不能有任何其它选项,因为所有元素都应取自训练数据集。

将集合拆分为 N 个等概率分位数,这意味着将整个训练数据集拆分为 N 个相等的部分。 它们中的每一个部分都包含相同数量的元素。 从其中一个子集中选择元素的概率为 1/N。

单独的分位数由 2 个参数表征:选择元素的概率,及其元素值的上限。 分位数的另一个条件是它们随概率的累积按升序排序。 这意味着每个后续分位数的值上限高于前一个分位数。 分位数的概率包括以前分位数的概率。 例如,对于某个分布,我们的分位数为 0.2,等级 15。 这意味着整个分布中 20% 的元素值不超过 15。 概率的步长和最大分位数值的等级可能不成比例,因为它们取决于特定的分布。

我们正在研究的算法涉及将数据集拆分为具有固定概率步长的分位数。 我们将训练模型来预测分位数的中值,取代上限。

为了训练模型,我们需要目标值。 拥有某个数据集的完整元素集,我们就可以很容易地找到平均值。 

但我们在实践中不会得到完整一套。 只有在执行动作,并过渡到新状态之后,我们才会从环境中获得奖励。 如您所见,使用新的模型训练算法不会影响与环境的交互。 在最初的 Q-学习中,我们训练模型来预测平均预期奖励。 为了做到这一点,我们通过迭代将模型的结果转移到具有较小学习系数的目标值。 如您所见,在学习过程中,我们的模型结果持续受到朝当前目标值的偏转力的影响。 当多向合力相互平衡的那一刻达到平均值(如图所示)。

我们可以用类似的方式来解决新算法的问题。 但有一件事。 此算法允许您找到集合的平均值。 这就是 0.5 的分位数。 当以最纯粹的形式应用它时,我们将在模型结果层的所有神经元上得到相同的值。 它们都将同步工作,如同一个神经元。 不过,我们需要获得所分析分位数上值的真实分布。

查看分位数的性质。 例如,考虑分位数 0.25,这是分析数据集的四分之一。 如果我们舍弃元素值之间的距离,那么对于分位数的每 1 个元素,总集合中应该有 3 个元素不属于这个分位数。 回到我们上面的例子,为了在 0.25 分位数点实现平衡,推动数值减小的力度必须是推动分位数的值增长力度的 3 倍。

因此,为了找到每个特定分位数的值,我们应该在贝尔曼方程中引入一个校正因子。 该因子将取决于分位数等级和偏离方向。

其中 τ 是分位数的概率特征。 

在学习过程中,我们以经验再现和目标网络的形式来运用经典 Q-学习算法的所有启发式方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赫兹量化软件

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值