《因果科学周刊》第7期:2021因果强化学习第一课

为了帮助大家更好地了解因果科学的最新科研进展和资讯,我们因果科学社区团队本周整理了第7期《因果科学周刊》,推送近期因果科学领域值得关注的论文和资讯信息。本期的主题是“因果强化学习”,它在众多通向通用人工智能的路径中备受关注,我们非常荣幸邀请到了剑桥博士陆超超,研究方向是因果强化学习,一位在此领域特别有活力的青年科学家,他精心为大家挑选了因果强化学习领域的10篇干货论文,并给本期周报撰写了前言、背景动机,而且还盘点了Judea Peal、Bernhard Schölkopf 、Yann Lecun 、 Gary Marcus 、Elias Bareinboim 这几位AI顶级专家对因果强化学习的独到见解,非常生动地为大家带来了2021年因果强化学习入门的第一课!

本期作者:陆超超 Alchemist 方文毅 许雄锐  陈晗曦 赵江杰 汪昕 李欣怡 陈正鸣  赵江杰  卓卓  龚鹤扬 常政

前言

近些年来,在游戏领域强化学习取得了巨大的进展,已经能够打败人类最顶级的玩家。但在现实生活中,我们却罕见强化学习的成功应用。带着这种疑惑,我们将探访机器学习中一个全新的领域——因果强化学习。因果强化学习不仅可以为传统强化学习中那些棘手的问题提供一种新的解决方案,更重要的是,它还为通用人工智能提供一种解决思路。隐藏在因果强化学习背后的哲学理念是迷人的:回顾科学发展的历史,人类也是走着相似的道路。具体来说,人类是在不断地与自然交互探索的过程中总结经验和规律,然后利用这些经验和规律更好地指导下一次与自然的交互探索,以此来不断地发展进步。因果强化学习就是在模仿人类的这种行为:智能体在于环境的交互过程中学习和发现其因果关系,然后利用学到的因果关系来优化自己的策略以指导下一步的交互。正是由于这个原因,因果强化学习可以被视为一种通用的学习算法,在现实生活中有着广泛的应用,比如:计算机视觉、机器人、生物医药、健康医疗、推荐系统,自动驾驶,金融、社会学等等。

本期周刊首先阐述因果强化学习的背景动机,然后罗列一些著名学者对因果强化学习的观点,关于这两部分更加详细的内容请参考文献[1-7]。最后精选了因果强化学习四个主题下的十篇文章。四个主题分别是:去除强化学习算法里的混杂效应、在强化学习中应用反事实框架、因果表示学习、以及使用强化学习的方法进行因果发现。希望能激发相关研究人员进一步的思考。


背景动机

从强化学习的角度来看,利用因果推理可以解决强化学习中最根本的缺陷 [1,2,3,4]。目前大多数的强化学习系统只能在游戏或者类似游戏的场景中取得很好的效果,比如Atari和围棋。这些场景通常具有两个共同点:(1)人们可以很容易获取充足的数据;(2)场景本身有着清晰定义的规则。但现实中大部分场景无法满足这两个要求,这就导致强化学习很难应用在具体的实际任务中。幸运的是,这两个强化学习中最根本的问题恰好可以通过因果推理来解决。对于第一个问题,其主要原因是,与监督学习中的标签信息相比,强化学习中的激励信号要稀疏很多。特别是与强化学习中高维度的状态信息相比,这么稀疏的激励信号很难指导智能体在如此巨大的状态空间进行有效地探索,这就意味着智能体需要大量的数据才能得到足够多的激励信号来完成探索任务。我们可以利用因果推理从历史数据中推断状态,动作和激励信号之间的因果关系,以此来优化下一步的探索策略,进而帮助智能体更高效、更有效地学习价值函数或策略。对于第二个问题,我们可以通过因果推理中干预的概念更好地理解强化学习中的动作的概念,也就是说,智能体可以利用动作(干预)来执行因果发现任务。更具体地说,智能体可以根据其当前状态,通过采取不同的动作(干预)来观察环境状态的变化,以此能更好地发现环境的因果关系,使场景中的规则更加清晰,这样可以帮助智能体更快地完成学习任务。

从自然科学的角度来看,因果强化学习与人们发现自然规律的两种过程是一致的 [1,2]。在爱因斯坦之前,人们观察到的物理现象相对比较简单。例如,伽利略通过做些自由落体或者小球在斜坡往下滚动的实验,得到一些简单的数据就能归纳出一些公式进而发展出一套理论,然后通过这些理论演绎出一些物理性质来对未来进行预测。但从爱因斯坦开始,由于物理现象越来越复杂,或者实验越来越困难甚至根据当时的条件根本没有办法进行实验,科学家们就反其道而行之。具体来说,他们先假设一些物理性质(比如对称性),然后根据这个假设发展出一套理论(比如相对论),最后可能过了几十年等实验条件成熟之后再做实验验证这套理论。因果强化学习恰好包含了这两个相反的科学发现过程。前者就是强化学习的过程,智能体通过不断的与环境交互作用(做实验)来得到一些结论,后者就是因果推理的过程,先给出一些假设(因果图),然后根据这些假设得出一些因果的结论,最后再通过实验去验证这些结论。因此,因果强化学习与人们发现自然规律的过程是一致的。

从认知科学的角度来看,因果强化学习与人们的认知过程是一致的 [1,2]。事实上,回顾人类的认知史,我们总是以一种类似因果强化学习的方式前进。更具体地说,人类从与大自然的互动中总结出规则或经验,然后利用这些经验来提高自己在下一次探索中的适应能力。因果强化学习所做的就是模拟人类的这种认知行为:智能体从与环境沟通的过程中学习因果关系,然后根据所学到的因果关系优化其下一步探索的策略。从上面的描述中,我们可以看到这个过程分为三个阶段:与自然或环境交互沟通、学习和总结因果关系、利用学到的因果关系进行下一步探索。令人惊讶的是,我们从历史文献中可以找到很多著名学者的论述来一一佐证这每个阶段的观点。心理学创始人之一Jean Piaget曾说过:“玩是一切新事物的答案。” 这里的“玩”就是指因果强化学习中的动作(干预),所以这句话可以理解为:通过动作(干预)才能得到新的知识(新的因果关系)。蒙纳士大学哲学教授Jakob Hohwy曾说过:“我们对世界的了解,即我们反映其因果结构的方式,受到我们大脑中推理能力的支配。” 这也就是说,我们人类认识世界是通过推理总结其因果结构的方式。因果科学的创始人之一David Hume也说过:“关于事实的所有推理似乎都建立在因果关系上。仅凭因果关系,我们就可以超越记忆和感官的证据。” 换言之,人们可以通过因果关系来指导自己进行下一步对未知世界的探索。

鉴于以上几点,我们有理由相信因果强化学习可以作为实现通用人工智能的一种途径,是终极算法[8]的一种实现方式。


——From 陆超超

学者观点

  1. Judea Pearl [5]

Is RL an exercise in causal inference? Of course! Albeit a restricted one. By deploying interventions in training, RL allows us to infer consequences of those interventions, but ONLY those interventions. A causal model is needed to go BEYOND, i.e., to actions not used in training.
The relation between RL and causal inference has been a topic of some debate. It can be resolved, I believe, by understanding the
  • 4
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值