【论文笔记】分层强化学习鼻祖:Feudal Reinforcement Learning 1993

1993年的Feudal Reinforcement Learning提出了一种模仿封建制度的分层控制机制,以解决强化学习中的泛化、学习速度等问题。该模型中,下层智能体仅关注上一层设定的目标和奖励,实现任务的层层分解。在迷宫任务的案例中,分层方法显示出了比传统Q-Learning更高的学习效率,主要由于上层策略的决定性和较少的动作选择。
摘要由CSDN通过智能技术生成

1993年的分层强化学习:Feudal Reinforcement Learning

概括

1992年没有深度学习,人们研究RL的思路与现在并不相同。但不可否认,提出“分层强化学习”是解决“泛化、学习速度”等问题的一个很好的思路。

Feudal 类似从宏观到微观地去分层指挥,这里有一点值得注意,那就是“层层封装”,A-B-C,C只去执行B给他下达的目标(或者说感受以此设计的奖励机制),而不去管A的;此外,对于接收的信息也是这样,C看不到A的信息。

这符合人的决策过程:比如打篮球,我的战略(第一层)是一对一盯防;接着我便执行这个“战略”:对位的对手是一个投手,因此我执行的微观策略(第二层)是贴近他防守,干扰他跑位、接球、投篮;至于具体如何做,那一半都是下意识和我的体能、技术所决定的(第三层),比如防守动作、跟着跑的临场判断等。

作者说,对于强化学习来讲,这种学习方式无疑更高:可能开始训练时,会有从低向上的影响,但是之后,便会是从上至下的指挥,毕竟上层动作少(可以理解为,宏观策略就那么几个),且起到决定性作用。

那么,这对现在的RL有什么启发吗?

  • 目前我觉得启发不大,因为我们有 n-step 自举更好地回溯到达重点的影响 和 Deep Learning 的泛化;
  • 此外,我认为如何设计宏观目标的
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值