今天,DeepMind开源了一个基于TensorFlow的强化学习库,名字叫TRFL。
思路是模块化,强调灵活度:如果把造智能体想象成搭积木,许多关键的、常用的木块都在这里集合了:
比如,DQN (深度Q网络) 、DDPG (深度确定策略梯度),以及IMPALA (重要性加权演员学习者架构) ,都是DeepMind功勋卓著的组件。
库里面的组件,虽然来源各不相同,但都经过严密测试,因而相对可靠;并且只要一个API,对开发者比较友好。
DeepMind团队自身做研究,也严重依赖这个库。
为了那些难以发觉的Bug
这个库,写作TRFL,读作“Truffle”。翻译成中文叫“松露”。
那么,松露为何而生?
交互Bug很隐秘
深度强化学习智能体,里面常常包含大量的交互组件:
至少要有环境,加上价值网络或者策略网络;
、原文链接