点击蓝字 • 关注我们
AI TIME欢迎每一位AI爱好者的加入!
在复杂多变的环境中,如何去学习具有高度适应性和认知性的策略,是认知科学和人工智能的核心问题。本报告会介绍讲者最近在强化学习(RL)中利用循环神经网络(RNN)来实现更具有认知性(cognitive),更高效的控制策略的两篇工作:
(1)讲者会介绍用于部分可观测环境(POMDP)中强化学习的一种变分循环神经网络(variational RNN)模型。此模型可以通过预测环境中的状态转变,将环境中的不可观测信息编码在RNN的internal states中。并提出了一种相应的算法,可以高效地实现在部分可观测环境中的强化学习。
(2)提出一种新颖的,多层级的循环神经网络(multiple-levels RNN)模型,用于通过端对端(end-to-end)的无模型强化学习(model-free RL)来解决分层控制(hierarchical control)的任务。通过实验我们可以观察到,在一个具有挑战性的控制任务中,此RNN会在强化学习中逐步自组织出动作层次结构(self-organization of action hierarchy)。该层次结构在高层的RNN中对应子目标(sub-goal)的抽象表示,而在低层的RNN中对应底层动作控制。另外这个自组织的动作层次结构可以帮助智能体,在由已经学习过的子目标重新组成的新任务中更快地进行重新学习 。
韩东起:本科毕业于中国科学技术大学物理系,现为Cognitive Neurorobotics Research Unit, Okinawa Institute of Science and Technology (OIST) 的PhD Candidate,导师为 Jun Tani和 Kenji Doya。他的主要研究兴趣是所有和神经网络有关系的课题,包括人工神经网络的应用(主要是深度强化学习),生物神经回路的建模(脉冲神经网络)以及利用人工神经网络模型研究认知神经科学。
一、背景知识
图灵奖得主Yoshua Bengio在NeurIPS 2019带来了一场题为《From System 1 Deep Learning To System 2 Deep Learing》的报告。
Yoshua的第一个观点,是指人的认知系统包含两个子系统(这是认知理论中大家共识的观点):
①System 1直觉系统,主要负责快速、无意识、非语言的认知,这是目前深度学习主要做的事情;
②System 2是逻辑分析系统,是有意识的、带逻辑、规划、推理以及可以语言表达的系统,这是未来深度学习需要着重考虑的;
强化学习(Reinforcement Learning):
强化学习是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题,强化学习的常见模型是马尔可夫决策过程。近些年来热门的深度强化学习(deep RL),其实就是用神经网络作函数近似的强化学习。
1、马尔可夫决策过程(Markov Decision Processes, MDPs)
MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。
MDP 的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。
其可以简单表示为: