论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》（因果推理必将带来现有人工智能领域研究的再一次巨大突破）

最新推荐文章于 2023-01-19 16:55:54 发布

胖胖的飞象

最新推荐文章于 2023-01-19 16:55:54 发布

阅读量3.3k

点赞数 6

分类专栏：人工智能文章标签：机器学习理论局限因果推理因果革命 Judea Pearl

本文链接：https://blog.csdn.net/weixin_36711901/article/details/89014795

版权

论文探讨了机器学习的理论局限性，指出当前系统缺乏因果推理能力，阻碍了强AI的发展。Judea Pearl提出因果革命的7大支柱，包括因果假设编码、混杂因子控制、反事实算法化等，强调因果模型在解决机器学习问题中的关键作用。他认为，因果推理是突破现有机器学习理论限制的关键，能够处理关联、干预和反事实问题，是实现人类级别智能的必备工具。

摘要由CSDN通过智能技术生成

论文学习笔记1：

Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution

——机器学习的理论局限与因果革命的7大火花

原文链接 → http://arxiv.org/abs/1801.04016

图灵奖得主、贝叶斯网络之父Judea Pearl于2018年1月上传在arXiv、发表在2月的WSDM'18会议的论文Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution论述了当前机器学习理论局限，并给出来自因果推理的7大启发。Judea Pearl指出，当前的机器学习系统几乎完全以统计学或黑盒子的方式运行，这对它们的能力和性能造成严重的理论上的局限性。这些系统不能推理介入（intervention）和回溯（retrospection），因而不能作为强AI的基础。为了实现人类级别的智能，学习器应该需要真实的模型的指导，就如同在因果推理任务中的模型一样。为证明这些模型的重要作用，他概述了七个任务，这些任务是当前机器学习系统无法实现的，但是已经使用因果建模工具完成的。他认为实现强AI的突破口在于因果推断理论，该理论可以帮助解决现有机器学习方法无法解决的问题，也即突破现有机器学习的理论限制。因为现在的数据科学只有在加速了数据的解释，即连接了数据与现实，才可以称作一门科学；现在的机器学习，只是函数拟合学习，永远不可能实现强人工智能。

1. 科学背景

如果我们检查驱动机器学习的信息，我们发现它几乎完全是统计学的。换句话说，学习器通过优化从环境中获得的传感器输入流的参数来改善其性能。这是一个缓慢的过程，在许多方面类似于推动达尔文进化的自然选择过程。它解释了像老鹰和蛇这样的物种如何在数百万年中开发出极好的视觉系统。然而，它无法解释人类如何能够在不到一千年的时间内制造眼镜和望远镜这样的超级进化过程。人类所拥有的其他物种缺乏的是精神表征（mental representation），这是一种人类可以随意操纵的环境蓝图，以想象（imagine）用于规划和学习的替代假设环境（评：也就是说人类可以将现实世界在心里映射，然后可以在心里随意更改这种映射来想象和推理用于规划和学习的环境的变化）。像N. Harari和S. Mithen这样的人类学家普遍认为，大约4万年前赋予我们智人祖先能够实现全球统治的决定性因素是他们能够映射环境的精神表征，审讯这一表征，通过想象力的心理行为扭曲它，最后来回答“What if?”这类问题。例子有介入性问题：“What if I act？”和回溯性或解释性问题：“What if I had acted diferently？”。如今没有学习器可以回答之前没有遇到的介入性问题，比如“What if we ban cigarettes？ “。（评：这些问题都隐含着因果推断，见后面有解释）此外，如今的大多数学习器都没有提供可以从中得出这些问题的答案的表示。

Pearl假定实现加速学习速度和人类水平表现的主要阻碍，应该通过消除这些障碍并为学习器配备因果推理工具。这个假设在二十年前本应是推测性的，是在反事实（Conterfactuals）的数学化之前的。但如今不是这样的。图形化和结构化的模型的进步使得反事实在计算上易于管理，从而使模型驱动（model-driven）的推理成为强AI的基础的更有希望的方向。在下一节中，我将使用三级层次结构描述机器学习系统面临的阻碍，这些三级层次结构被用来控制因果推理中的推断。最后一节总结了如何使用现代因果推理工具规避这些阻碍。

因果推理逻辑揭示的一个非常有用的见解是因果信息的敏锐分类是存在的，即每个类别能够回答的问题类型。该分类形成3级的层次结构，级别 i(i=1,2,3) 的问题只可以在来自级别 $j(j\geqslant i)$ 的信息可用时才能回答。

图1显示了3级层次结构，以及可在每个级别回答的特征问题。这些问题包括：1、关联；2、介入；3、反事实。（评：关联 $\subset$ 介入 $\subset$ 反事实）这些层的名称即显示了它们的用法。

我们称第一级为“关联”，因为它代表纯粹的统计关系，由裸数据（naked data）定义。（这一层次的其他名字还有“无模型”、“盲模型”、“黑盒子”或“以数据为中心”，Darwiche(2017)使用“函数拟合”，由于它相当于使用一个由神经网络结构定义的复杂函数对数据的拟合）。例如，观察一个购买牙膏的顾客，那么他/她购买牙线的可能性更大;这种关联可以使用条件期望直接从观察到的数据推断得出。此层的问题位于层次结构的底层，因为它们不需要因果信息。

第二级“干预”排名高于“关联”层，因为它不仅涉及我们看到的是什么，而且设计我们所看到的改变。这个层次的一个典型问题是：如果我们将价格翻倍会怎样？这些问题无法单独从销售数据中得到解答，因为它们涉及客户响应新的定价的行为的变化。这些选择可能与之前的价格上涨情况大不相同（除非我们准确地复制当价格达到当前价值的两倍时存在的市场条件）。（评：“介入”层如其名，说的是当改变了不一样的条件时会发生什么？强调的是对条件的介入）