【人工智能】张钹院士：AI科学突破的前夜，教授们应当看到什么？

最新推荐文章于 2024-01-10 14:39:07 发布

产业智能官

最新推荐文章于 2024-01-10 14:39:07 发布

阅读量865

点赞数

AI 科技评论按：12 月 27 日 AI 科技评论去清华蹭了一个研讨会，主题是「从阿尔法 Go 到通用人工智能：脑科学与人工智能」。

这是清华大学脑与智能实验室自 12 月 15 日成立之后举办的首次学术研讨会。

在这次研讨会上，AI 科技评论第一次看到这么多脑科学家讲怎么用老鼠、猴子做实验。除此之外，AI 科技评论也听到两场非常引人深思的 AI 相关报告——一场为张钹院士做的《 AI 和神经科学》，另一场是今日头条 AI Lab 主任李航博士的《 NLP 现状和未来》。

听完之后 AI 科技评论深觉遗憾，为什么呢？因为张钹院士和李航博士的报告非常值得 AI 研究人员细细品味，但在场的人并不是很多，且多数并不是「AIer」。

回来后 AI 科技评论决定根据现场拍的一些照片和做的一些笔记简单还原一下张钹院士的报告现场（没能完整记录李航博士的报告，sad！），聊解遗憾。

张钹院士的报告全程英文，但最后用中文做了点睛之笔。

张钹院士在报告中首先分析了什么是智能。他认为智能包含三个成分：perceive、rational thinking 和 taking action。综合来说就是，一个智能体要能够感知它周围的环境，进行思考并采取行动来最大化它实现某些目的的机会。

现在的 AI model 无外乎两种类型：符号模型（Symbolic model）和亚符号模型（Sub-symbolic model）或者称为连接主义（Connectionism）。

符号模型

符号模型的基本思想主要由 J. McCarthy 等人于 1955 年提出。他们认为 AI 的研究基于这样一个猜想，即学习或者任何其他的智能特征原则上都可以被精确地描述。他们提出两个基本假设：

物理符号系统假设：物理符号系统是智能的充分必要条件；
人脑和计算机都是物理符号系统，认知过程就是在符号表示上的运算。

在 1976 年 Newell 和 Simon 提出了一个符号模型。它包含两部分：知识库和推理机（Inference Engine）。这种 AI 主要是知识驱动或者基于规则的模型。

在 McCarthy 等人提出符号模型之后大约 40 年，1997 年 IBM 推出的基于符号模型的 IBM 深蓝（Deep Blue）在国际象棋比赛中以 2 赢 1 败 3 平打败了当时的世界冠军 Kaspanov。在深蓝的系统中，包含了 700,000 份人类大师的棋谱，这些棋谱分别用 V-value 函数来表示，函数有 8000 多个变量。

IBM 沃森的结构

2011 年，IBM 沃森在综艺节目《危险边缘》中打败了最高奖金得主布拉德·鲁特尔和连胜纪录保持者肯·詹宁斯。同样它也是基于知识的符号型 AI 系统，它的知识来源于百科全书、字典、词典、新闻、文学作品以及维基百科的全部文本，在其 4TB 的磁盘中包含了 2 亿页结构化和非结构化的信息。

以Watson为代表的新一代的基于知识的符号模型系统相对之前有少许变化。其一是知识库中的知识表示变成多样化；其二是多推理机（Multi-Inference Engines）结构；其三是增加了大众知识（来自互联网）。

但是这种知识驱动的符号模型也有其局限之处，如下：

有很多人类行为（知识）并不能精确描述，例如常识；
知识库总是有限的，它不能包含所有的信息；
知识是确定的；
它只能描述特定的领域；
大量知识不能做到定量化（例如质量）。

所以这种模型只能在宏观层面上用来模拟人类的某些行为。

亚符号模型/连接主义

1965 年，在达特茅斯夏季研讨会的提议文件（http://t.cn/RAnjsCF）的问题 2 中说到「怎么安排一组（假设的）神经元来形成概念？……这个问题仍需要更多的理论工作。」

对于神经网络，大致有两个时期。第一个为浅层神经网络（Shallow Neural Network），这个网络只有一层隐藏层。在这种网络中，需要手工特征（Hand-crafted Features）来构建分类器，因此它需要有领域的知识。

另外一种是在 2000-2006 年间，由 Igor Aizenberg 和 Geoff Hinton 完成。这个网络有更多的隐藏层，称为多隐藏层（深度）神经网络。多隐藏层的结构带来了很大的变化。首先是，我们可以用 Raw data 代替手工特征，所以领域知识也就不再是必须的了。以图像为例，我们只需要将图像按照 pixel 的格式输入即可。其次，深度神经网络让亚符号模型的表现有了很大的提高。再次，在 90 年代 AI 研究人员发展了一系列成熟的统计数学工具，这在模型中有很多表现，让模型变得更具可度量和可验证性。另外，这个模型有很清晰的神经科学的解释。

这种 AI 系统主要是基于数据驱动。只要有数据，我们不需要有太多的领域知识就可以在任务中做得很好。基于深度神经网络的例子很多，例如 AlphaGo。

相比于人类的神经网络，它仍有一系列的缺点。如下：

以 2014 年 Goodfellow 发表的《Adversarial examples and adversarial training》为例，输入的图片加上一点点的噪声，AI 系统就将一张明显是熊猫的图片以 99.3% 的置信度识别成长臂猿。所以目前的 AI 系统在 robustness 上还是非常弱的。

这种 AI 系统只是一种分类机器，是一个 AI without Understanding，所以仅仅依靠基于数据驱动的深度学习很难产生真正的智能，也远没有触及智能的核心。若想做到真正的智能，就必须

人工智能的核心

前面说道，深度学习并没有触及到人工智能的核心，那么人工智能的核心是什么呢？张钹院士认为主要表现为以下五个方面：

在缺乏知识和数据的情况下依然能够完成任务；
在信息不完善（甚至缺乏信息）的情况下依然能够完成任务；
能够处理非确定性的任务；
能够处理动态任务；
能够处理多领域和多任务。

AI 研究的新趋势

基于对上面的讨论，可以看出目前 AI 的研究有两种，基于知识的符号模型和基于数据的亚符号模型（连接主义）。张钹院士认为现在在 AI 研究中渐渐出现了一种新的趋势，即建立一种同时基于知识和数据的 AI 系统。

他认为，处理知识是人类所擅长的，而处理数据是计算机所擅长的。如果能够将二者结合起来，一定能够构建出一个比人类更加智能的系统。

如何去做呢？

现在我们有两种基本的 AI 方法。一种是基于语义符号的方法，一般用在处理文本和语言，我们会构建一个语义符号空间（Semantic Symbolic Space）。另一种是基于数据的特性向量的方法，用来处理图像和语音，我们会构建一个特性向量空间（Feature Vector Space）。

因此我们可以构建一个新的空间，叫做语义向量空间（Semantic Vector Space），即将语义符号空间进行 embedding 处理或者将特性向量空间进行 Raising 处理。通过这种方法，我们将可以统一处理 text、language、image 和 speech。

张钹院士认为在这些方面，尤其是在将特性向量空间 raising 到语义空间上，我们应该向神经科学学习。例如脑神经中有 feedback connection、lateral connections、sparse firing、attention mechanism、multi-model、memory 等机制，这些都值得设计 AI 系统的人员去注意和学习。

研究案例

张钹院士介绍了四个案例来说明如何向神经科学学习，以及如何构建同时基于知识和数据的 AI 系统。（公众号后台发送「张钹」，获取四篇案例论文原文）

一、Sparse Firing + HMAX

论文：Sparsity-Regularized HMAX for Visual Recognition

这项工作的一个创新点在于将神经科学中的发现 Sparse firing 和 HMAX 结合在一起。

HMAX 模型是 Riesenhuber, M. & Poggio, T 等人于 1999 年提出，其理念是模仿人的认知，由点到线到面逐级抽象，还原高级特性。HMAX 是计算机视觉中非常重要的一个模型。

Sparse firing 是神经科学中的一个概念。神经科学的研究表明在人的大脑中，针对一个刺激大多数神经元是沉默的。例如依照大脑内细胞的密度、探针大小以及探针可以测量到的信号距离来估计，一根探针应该可以测到周围十个甚至上百个神经元的信号，但实际情况通常只能测到几个神经元信号，90% 以上的神经元是测不到的。这就是说针对一个刺激，只有少数（稀疏）神经元是被激活的。

大脑神经元的这种 sparse firing 激活方式，或者说 sparse coding 方式有许多优点，一方面可以用少量的神经元对大量的特征进行编码，另一方面也能降低解码误判以及能量损耗等等。

这篇文章的工作正是将 Sparse firing 与 HMAX 模型相结合，应用于图像识别任务当中。工作非常有意思，感兴趣的读者不妨一读。

二、视觉识别验证码

论文：A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs ( Science, 26 Oct. 2017)

这篇文章于今年 10 月份发表于《Science》期刊，是人工智能向神经科学学习的一个范例。

目前的机器学习模型在图像识别的任务中往往需要大量的训练数据集，而训练的结果往往只能应用于特定的领域内。但人类的视觉智能则可以通过少数样本（甚至不需要样本）来学习并能够很轻易地迁移到完全不同的情景当中。所以向人类的视觉神经机理学习或许是机器学习模型进一步发展的方向。

在这篇文章中，知名的人工智能创业公司 Vicarious 就通过人类视觉一些工作机理的启发，构建了一个层级模型，他们称之为「递归皮层网络」（Recursive Cortical Network, RCN）。在模型中他们引入了视觉概率生成的模型框架，其中基于消息传送（message-passing）的推断，以统一的方式处理图像的识别、分割和推理（Reasoning）。

这个方法表现出了非常优秀的泛化和遮挡推理（occlusion-reasoning）能力，在困难的场景文字识别任务上远优于深度神经网络，且具有 300 倍的数据效率（data efficient）优势。

其实验结果如下表

在 reCAPTCHA 的验证码单词识别准确率已经可以达到 66.6%，BotDetect 为 64.4%，雅虎上为 57.4%，PayPal 上为 57.1%。

三、DNN 的可解释性

论文：Improving interpretability of deep neural networks with semantic information (2017)

这篇文章是张钹院士组在 CVPR 2017 上的一篇论文，是「Knowledge+data」的一个典型范例。

在传统的图像识别的 DNN 模型中，我们输入图片，得到描述性结果，但是我们却不知道为什么会得到这样的结果，也不知道隐藏层中都是什么 feature，或者当得到一个错误结果时我们不知道为什么会错。

这篇文章的研究主要方法就是先获得一些人类对图片的描述作为语义信息数据；将这些数据和图片同时送入到 DNN 模型中进行训练；这里每一个神经元都会与一个 topic 进行关联，于是整个网络变得具有可解释性。

四、Zero-shot 视频识别

论文：Recognizing an Action Using Its Name: A Knowledge-Based Approach

这篇文章的工作也是一个典型的「Knowledge+data」范例。

现有的动作识别算法需要一组正面的示例来训练每个动作的分类器。但是，我们知道，动作类的数量非常大，用户的查询变化也很大。预先定义所有可能的行动类别是不切实际的。

在本文中作者提出了一种不需要正面示例的方法，通常这种方法被称为「Zero-shot Learning」。目前的零点学习模式通常训练一系列属性分类器，然后根据属性表示识别目标动作。为了确保特定动作类别的最大覆盖范围，基于属性的方法需要大量可靠且准确的属性分类器，这在现实世界中通常是不可用的。

在这篇论文中，作者提出的方法只需要一个行动名称作为输入来识别感兴趣的行为，没有任何预先训练的属性分类器和正面的示例。

给定一个动作名称后，首先根据外部知识（例如 Wikipedia）建立一个类比池，类比池中的每个动作都会与不同层次的目标动作有关。

从外部知识推断的相关性信息可能是嘈杂的。所以他们又提出一种算法，即自适应多模型秩保持映射（Adaptive multi-model rank-preserving mapping model, AMRM）来训练动作识别的分类器，能够自适应地评估类比池中每个图片的相关性。

以上四个例子有两类，一类是向神经科学学习的结果；一类是基于「数据+知识」的结果。（公众号后台发送「张钹」，获取四篇案例论文原文）

张钹院士介绍说他们工作的一个思路就是：数据+知识=统计学习模型。其中知识包括先验模型、逻辑规则、表示学习、强健的统计约束等。

此外他还提到了的 Bayesian Deep Learning 的概念。

最后他认为我们目前的 AI 系统是在介观层面上模仿了人类，我们还需要向神经科学学习和合作。在 AI 系统的研究中应当将知识驱动和数据驱动结合起来，将理性行为和感性行为结合起来。

总结（划重点）

张钹院士演讲的亮点在最后的 summary，原文整理如下（稍作修改）：

鲁迅说到，不同的人对《红楼梦》有不同的看法，经济学家看到《易》，道学家看到淫，才子看到缠绵，革命家看到反满，流言家看到宫闱秘事。

现在的人工智能有点儿像《红楼梦》，不同的人有不同的看法。企业家看到商机，科学家（霍金）看到危险，工程师看到应用前景，老百姓看到 AlphaGo 打败李世石。我现在就说教授们应该看到什么，这也是我今天报告希望大家能够看到的。

看到什么呢？就是——AI 科学的曙光。

大家看待 AI，有两个过程。过去是低看了 AI，觉得 AI 没什么。现在 AlphaGo 出来以后，突然 AI 上天了，大家对它仰视了。我告诉大家，这两个都不对。大家要平视 AI。

为什么过去对 AI 有这个印象呢？确实，过去的 AI 我们没有资格去谈，因为我们只有猜测、假设，只有 case by case。我们没有什么本事。再加上有些人炒作，不靠谱的东西很多。所以过去我们不能给大家谈。

现在我们有希望给大家谈的，就是刚才讲的。现在从深度学习中大家看到的是广泛的应用。但是没有看到深度学习给我们点燃了一个曙光，就是人工智能完全可以用建立数学模型的方法来做。当然它也告诉我们，光用数学的方法来建造人工智能是不行的，例如深度学习获得的结果只是一个机械的分类器，这跟人的认知或感知完全是两码事。

那么我们接下来怎么走向建造人工智能的数学模型这一步呢？只有两条路。一条就是向脑科学学习，看大脑里面是怎么做到智能的。大脑里面也是使用神经网络，为什么它可以认识「鸟」，而计算机就不行呢？我们很清楚，计算机的这个神经网络和大脑的神经网络不可同日而语。我们必须向大脑学习。

另一条路就是把知识和数据结合起来。大家想一想，人的智能主要不是来自于数据，而是来自于知识。但是为什么大家要把数据看得这么重呢？这是因为数据很多，而且计算机最擅长的就是数据的处理。所以就给大家一个模糊的认识，以为数据决定一切。这是错的。但是这也给我们提了个希望，既然计算机搞数据厉害，人利用知识厉害，如果我们能够让这两个结合起来，我们就有希望做出比人还要好的系统。

问：张老师您好。您最后一个 slice 说在 AI 中商人看到了商机等等。所以我特别想知道您最后问的问题的答案，教授们应该看到的什么？

张钹：教授应当看到的是——去做人工智能的基础问题。我们不能去看那个商机，商机应该让企业家去看。我现在认为人工智能正处在突破的前夜。深度学习不是我们的突破，深度学习只是展示了突破的希望，因为深度学习并没有构造真正的 Intelligence。

现在我们有机会触及到 the core of intelligence。在什么情况下我们才有可能触碰 the core of intelligence 呢？就是刚才我讲那 5 个条件，即

在缺乏知识和数据的情况下依然能够完成任务；
在信息不完善（甚至缺乏信息）的情况下依然能够完成任务；
能够处理非确定性的任务；
能够处理动态任务；
能够处理多领域和多任务。

现在的人工智能做的并不是真正的智能。它是选择了那些确定性的、静态的问题，这个本来就是计算机会干的事。计算机不会干的事是随机应变，举一反三，由表及里，这才是智能的本质。我们过去做的系统，没法做到智能的本质，因为我们还不知道。深度学习给了我们一个提示，就是我们已经接触到了智能的本质。那么我们沿着这个去做，才有希望。

大家现在都在消费深度学习。我们都知道，如果用深度学习来做识别，把石头看成人没有关系；但是做决策，把敌人看成朋友是不允许的。深度学习不解决这个问题，它绝对会产生大错。这是它本质造成的。所以我一直说，到目前为止，在复杂路况下，还很难实现真正的无人车，「无人车」旁边还需要坐一个人。为什么？稍微懂点人工智能的人都知道，目前人工智能还不能解决突发事件。

过去我们没有能力做到真正智能这一点。而今天是科学研究人员的一个机会。希望大家去做。如果大家持续去做，我相信会有新的发现。现在很多人看到了商机，看到了应用，看到了计算机打败李世石，但却很少人有看到这一点。局外人看不清，作为局内人，我提醒大家，教授应当看到——AI 科学的曙光。

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！