股票量化软件:神经网络变得轻松（第三十三部分)分布式 Q-学习中的分位数回归

最新推荐文章于 2024-10-02 23:04:10 发布

赫兹量化软件

最新推荐文章于 2024-10-02 23:04:10 发布

阅读量61

点赞数

文章标签：神经网络学习回归

本文链接：https://blog.csdn.net/herzqthz/article/details/132067634

版权

在上一篇文章中，我们领略了分布式 Q-学习，它允许学习预测奖励的概率分布。我们已学会了如何预测在特定数值范围内获得预期奖励的概率。但是这种范围的数量和奖励值的分布是模型的超参数。因此，需要有关奖励值分布的专业知识才能选择最优参数。赫兹量化还需要进行某些测试来选择最优的超参数。

必须说，将整个可能数值范围划分为相等范围的方式（赫兹量化之前曾研究过）也有其缺点。我们鉴别一个神经元来预测每个动作在每个单独范围内获得奖励的概率。然而，在实践中，在大数据范围内所获奖励等于零的概率十分平常。这意味着我们的资源利用率十分低效。赫兹量化可以合并一些范围来减少操作次数。这样能加快模型训练和执行。与此同时，在其它范围内获得奖励的概率也相当高。为了获得更完整的全景图，我们可将此范围分解为更小的元件。这将提高预测预期奖励的准确性。不过，我们的方式不支持不同尺寸范围的创建。这些缺点可以运用于 2017 年十月在文章”中提出的分位数回归算法来解决使用分位数回归的分布强化学习。

1. 分位数回归

分位数回归针对解释变量的分布与目标变量的某些分位数之间的关系进行建模。

在赫兹量化继续研究分位数回归在分布式 Q-学习中的使用之前，应该提到的是，所提出的算法接近于来自另一侧期望奖励的概率分布评估。以前，赫兹量化将可能的奖励值范围划分为不同的区域。在新算法中，我们将得到的奖励集合划分成几个概率相等的分位数。这样做有什么益处？

我们仍然有一个分析分位数的超参数。但与此同时，我们不限制可能的奖励价值范围。取而代之，我们训练模型来预测分位数的中值。由于我们用的是等概率分位数，因此我们不会有零概率奖励的分位数。甚至，在稀疏奖励值区域，我们将获得更大的分位数。在会有很多奖励的所在，分位数将被分解成更小的部分。因此，赫兹量化可以更全面地了解期望奖励的概率分布。甚而，这种方法能够识别稀疏的非静态区域和增加的奖励值密度。它们可能因环境状态而异。

然而，它仍然是相同的 Q-学习。该过程本身基于贝尔曼（Bellman）优化方程。

贝尔曼（Bellman）优化方程

不过，这次我们必须定义的不是一个值，而是整个分布。但基本上，任务保持相同。我们来仔细查看这个任务。

如上所述，我们将训练样本的整个奖励分布划分为 N 个等概率分位数。每个分位数的等级不可由给定概率的所分析随机变量超过。在此，等同得可能分位数是具有固定步长的分位数，而它们的总集涵盖了整个训练数据集。

在实践中，当我们有一个训练数据集时，从数据集中获取其中一个元素的概率为 1。不能有任何其它选项，因为所有元素都应取自训练数据集。

将集合拆分为 N 个等概率分位数，这意味着将整个训练数据集拆分为 N 个相等的部分。它们中的每一个部分都包含相同数量的元素。从其中一个子集中选择元素的概率为 1/N。

单独的分位数由 2 个参数表征：选择元素的概率，及其元素值的上限。分位数的另一个条件是它们随概率的累积按升序排序。这意味着每个后续分位数的值上限高于前一个分位数。分位数的概率包括以前分位数的概率。例如，对于某个分布，我们的分位数为 0.2，等级 15。这意味着整个分布中 20% 的元素值不超过 15。概率的步长和最大分位数值的等级可能不成比例，因为它们取决于特定的分布。

我们正在研究的算法涉及将数据集拆分为具有固定概率步长的分位数。我们将训练模型来预测分位数的中值，取代上限。

为了训练模型，我们需要目标值。拥有某个数据集的完整元素集，我们就可以很容易地找到平均值。

但我们在实践中不会得到完整一套。只有在执行动作，并过渡到新状态之后，我们才会从环境中获得奖励。如您所见，使用新的模型训练算法不会影响与环境的交互。在最初的 Q-学习中，我们训练模型来预测平均预期奖励。为了做到这一点，我们通过迭代将模型的结果转移到具有较小学习系数的目标值。如您所见，在学习过程中，我们的模型结果持续受到朝当前目标值的偏转力的影响。当多向合力相互平衡的那一刻达到平均值（如图所示）。