深度强化学习(deep RL)近年来取得了令人瞩目的进步,在Atari游戏、围棋等领域战胜了人类。但是,在面对不确定环境、不完全信息的任务时仍然面临很大的挑战。如何求解非完全信息、不确定条件下的决策问题成为当前人工智能面临的重要挑战。清华大学人工智能研究院基础理论研究中心聚焦这一问题,开展了一系列理论和关键技术研究,自研了深度强化学习算法平台“天授”,日前向业界开源:
https://github.com/thu-ml/tianshou
“天授”源自《史记》,意为“取天所授而非学自人类”,刻画了强化学习通过与环境进行交互自主学习,而不需要像监督学习一样需要大量人类标注数据。清华大学团队针对目前多数既有强化学习平台(如 RLLib 和 BaseLine)等无法支持高效、定制化的训练场景的问题,继承了首版 TensorFlow“天授 0.1”版在模块化等方面的优势,推出了基于 PyTorch 框架的“天授 0.2”版本。
相比较目前的几种 PyTorch 强化学习平台,多数存在框架结构复杂、二次开发困难、对用户不友好等问题