当强化学习遇上循环神经网络:从System 1到System 2 Deep Learning

本报告介绍了将循环神经网络(RNN)应用于强化学习(RL)的最新研究,以实现更高效的控制策略。通过变分循环神经网络(VRNN)和多层级RNN模型,解决了部分可观测环境中的RL问题和分层控制任务。实验表明,RNN能够自组织出动作层次结构,提高智能体在新任务中的学习速度。
摘要由CSDN通过智能技术生成

点击蓝字  •  关注我们

AI TIME欢迎每一位AI爱好者的加入!

在复杂多变的环境中,如何去学习具有高度适应性和认知性的策略,是认知科学和人工智能的核心问题。本报告会介绍讲者最近在强化学习(RL)中利用循环神经网络(RNN)来实现更具有认知性(cognitive),更高效的控制策略的两篇工作:

 

(1)讲者会介绍用于部分可观测环境(POMDP)中强化学习的一种变分循环神经网络(variational RNN)模型。此模型可以通过预测环境中的状态转变,将环境中的不可观测信息编码在RNN的internal states中。并提出了一种相应的算法,可以高效地实现在部分可观测环境中的强化学习。

 

(2)提出一种新颖的,多层级的循环神经网络(multiple-levels RNN)模型,用于通过端对端(end-to-end)的无模型强化学习(model-free RL)来解决分层控制(hierarchical control)的任务。通过实验我们可以观察到,在一个具有挑战性的控制任务中,此RNN会在强化学习中逐步自组织出动作层次结构(self-organization of action hierarchy)。该层次结构在高层的RNN中对应子目标(sub-goal)的抽象表示,而在低层的RNN中对应底层动作控制。另外这个自组织的动作层次结构可以帮助智能体,在由已经学习过的子目标重新组成的新任务中更快地进行重新学习 。

韩东起:本科毕业于中国科学技术大学物理系,现为Cognitive Neurorobotics Research Unit, Okinawa Institute of Science and Technology (OIST) 的PhD Candidate,导师为 Jun Tani和 Kenji Doya。他的主要研究兴趣是所有和神经网络有关系的课题,包括人工神经网络的应用(主要是深度强化学习),生物神经回路的建模(脉冲神经网络)以及利用人工神经网络模型研究认知神经科学。

一、背景知识

图灵奖得主Yoshua Bengio在NeurIPS 2019带来了一场题为《From System 1 Deep Learning To System 2 Deep Learing》的报告。

Yoshua的第一个观点,是指人的认知系统包含两个子系统(这是认知理论中大家共识的观点)

①System 1直觉系统,主要负责快速、无意识、非语言的认知,这是目前深度学习主要做的事情;

②System 2是逻辑分析系统,是有意识的、带逻辑、规划、推理以及可以语言表达的系统,这是未来深度学习需要着重考虑的;

强化学习(Reinforcement Learning):

强化学习是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题,强化学习的常见模型是马尔可夫决策过程。近些年来热门的深度强化学习(deep RL),其实就是用神经网络作函数近似的强化学习。

1、马尔可夫决策过程(Markov Decision Processes, MDPs)

MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。

MDP 的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。

其可以简单表示为: 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值