神经情景控制(Neural Episodic Control)On arXiv By DeepMind
在诸多领域,深度强化学习的表现已经超越人类。但是这种学习方式效率非常低,与人类相比要达到满意表现所需的数据量要高好几个数量级。为此我们提出了神经情景控制:一种能够快速吸收新经验并依据新经验来采取行动的智能体。该智能体的价值函数采用半值方式表示:一种旧经验缓冲器,包括价值函数渐变状态表示和价值函数快速更新估计两部分。在大量场景下的研究表明,该智能体的学习速度明显快于目前最先进的通用深度强化学习智能体。
翻译
2017-06-19 11:58:49 ·
2323 阅读 ·
0 评论