- 深度强化学习的缺陷:
采样效率低以及往往不能泛化至任务中看似微小的变化 。
这些缺陷表明,具有较强能力的深度强化学习模型往往对其所训练的大量数据过度拟合,因此无法理解它们试图解决的问题的抽象性、可解释性和可概括性。 - 关系性深度强化学习
这种新型强化学习可以通过结构化感知和关系推理提高常规方法的效率、泛化能力和可解释性。
RRL 背后的核心思想即通过使用一阶(或关系)语言表示状态、动作和策略,将强化学习与关系学习或归纳逻辑编程结合起来。从命题转向关系表征有利于目标、状态和动作的泛化,并利用早期学习阶段中获得的知识。此外,关系语言还有利于使用背景知识,而背景知识同时也可以通过与学习问题相关的逻辑事实和规则提供。
关系性深度强化学习
最新推荐文章于 2024-01-11 10:21:21 发布