最近,离线强化学习方法已广泛普及,其在解决不同复杂度的问题方面具有许多前景。然而,研究人员面临的主要问题之一是当学习时可能浮现的乐观情绪。智能体基于训练集中的数据优化其策略,并获得对其动作的信心。但是训练集往往无法涵盖环境的所有可能状态和转变。在随机环境中,这种信心被揭示是不完全正当的。在这种情况下,智能体的乐观情绪策略可能会导致风险增加,以及不良后果。因子选股
1. SPLT-转换器方法
解决 2 个主要问题:
模型应有助于在任何情况下为智能体的行为创建各种候选者;
模型应涵盖向新环境状态转变的各种潜在模式的大多数。
为了达成该目标,我们基于扮演者政略和环境模型转换器,训练了 2 个独立的 VAE。方法作者为两个流程生成随机潜在变量,并在覆盖整个规划界限内使用它们。这令我们能够枚举所有可能的候选轨迹,而分支不会呈指数级增加,并在测试期间提供对行为选项的有效搜索。
因子选股
这一思路是,潜在的政策变量应当对应于不同高度的意图,类似于层次化算法的技能。同时,环境模型的潜在变量应当对应于各种可能的趋势、及其状态下最可能的变化。
因子选股
政策和环境编码器所用的架构与转换器相同。它们按先前轨迹的形式接收相同的初始数据。但与前面讨论的算法不同,轨迹仅包括一组扮演者状态和动作。在编码器的输出端,我们获得离散的潜在变量,每个维度的值数量有限。
因子选股
该方法的作者建议使用转换器所有输出元素的平均值,以便将整个轨迹合并为一个向量表示。
接下来,这些输出中的每一个都经由一