摘要
本文定义并强调了在强化学习背景下的安全探索(safe exploration)问题。安全的概念和将导致毁坏因而必须避免的状态与转移有关。本文介绍了用来确定一个状态安全度的安全函数,与一个可以将系统从严峻状态变回安全状态的备份策略(backup policy)。本文还展示了一个分级探索(level-based exploration)方案,它可以生成一个综合的观察基础(comprehensive base of observation),同时支持安全约束。本文在一个燃气轮机的简化仿真上评估提出的方法。
主要是讲防止真实世界交互带来的物理毁坏,貌似和Minecraft世界的探索没有太大关系?