当强化学习遇上循环神经网络：从System 1到System 2 Deep Learning

AITIME论道

于 2021-01-06 18:08:31 发布

阅读量6.8k

点赞数 5

文章标签：算法神经网络大数据编程语言 python

本文链接：https://blog.csdn.net/AITIME_HY/article/details/112301168

版权

本报告介绍了将循环神经网络（RNN）应用于强化学习（RL）的最新研究，以实现更高效的控制策略。通过变分循环神经网络（VRNN）和多层级RNN模型，解决了部分可观测环境中的RL问题和分层控制任务。实验表明，RNN能够自组织出动作层次结构，提高智能体在新任务中的学习速度。

摘要由CSDN通过智能技术生成

点击蓝字 • 关注我们

AI TIME欢迎每一位AI爱好者的加入！

在复杂多变的环境中，如何去学习具有高度适应性和认知性的策略，是认知科学和人工智能的核心问题。本报告会介绍讲者最近在强化学习（RL）中利用循环神经网络（RNN）来实现更具有认知性（cognitive），更高效的控制策略的两篇工作：

（1）讲者会介绍用于部分可观测环境（POMDP）中强化学习的一种变分循环神经网络（variational RNN）模型。此模型可以通过预测环境中的状态转变，将环境中的不可观测信息编码在RNN的internal states中。并提出了一种相应的算法，可以高效地实现在部分可观测环境中的强化学习。

（2）提出一种新颖的，多层级的循环神经网络（multiple-levels RNN）模型，用于通过端对端（end-to-end）的无模型强化学习（model-free RL）来解决分层控制（hierarchical control）的任务。通过实验我们可以观察到，在一个具有挑战性的控制任务中，此RNN会在强化学习中逐步自组织出动作层次结构（self-organization of action hierarchy）。该层次结构在高层的RNN中对应子目标（sub-goal）的抽象表示，而在低层的RNN中对应底层动作控制。另外这个自组织的动作层次结构可以帮助智能体，在由已经学习过的子目标重新组成的新任务中更快地进行重新学习。

韩东起：本科毕业于中国科学技术大学物理系，现为Cognitive Neurorobotics Research Unit, Okinawa Institute of Science and Technology (OIST) 的PhD Candidate，导师为 Jun Tani和 Kenji Doya。他的主要研究兴趣是所有和神经网络有关系的课题，包括人工神经网络的应用（主要是深度强化学习），生物神经回路的建模（脉冲神经网络）以及利用人工神经网络模型研究认知神经科学。