0 序言
人工智能(Artificial Intelligence, AI)发展史是一段人类探索机器能在多大程度上模拟人脑的历史,最早可溯源至历史上零星但绵延的关于人脑和机器人的研究,直接滥觞于18和19世纪的机械工程理论和心理学、脑神经科学等理论,并于19世纪40年代形成基本雏形,正式被提出为一个学术名词则是在1956年的达特茅斯。相比于历史更悠久的关于自动机Automaton(词源古希腊)和古中国机关术等技术的探索,AI将人类对于创造自身并实现自动化的追求从形推进到了神。
AI简史(上)主要涵盖公元前到前深度学习时代(21世纪初)的一些重要发展节点,核心内容包括1930s-1940s一批人工智能相关的奠基性理论(Inspired by 马毅教授之前在SJTU的一次讲座),以及深度学习之前的人工智能发展三起两落。
需要注意的是,计算机领域的概念一直以来存在内涵外延不清的情况。为了方便论述,先在此澄清后文所用概念,人工智能=规则/知识/逻辑系统 + 机器学习(概率统计、运筹优化)+ 环境交互(控制论)。
1 早期史实:公元前4000年-20世纪初
人工智能的历史渊源可以归集到对自动机器人的发明与想象,以及关于人脑和思考中枢的探索,时间范围可以从公元前4000年横跨到20世纪上叶。下面是几个有关自动机器人的简单例子。
- 春秋战国时期,能实现简单“送葬设关而能跳踊”的殉葬俑(“始作俑者”典故所出),基于简单的机关术;
- 18世纪,欧洲钟表匠皮埃尔·德罗发明的机械人偶,脱胎于精密的机械钟表技术;
- 1886年,法国作家利尔亚当在他的小说《未来夏娃》中将外表像人的机器起名为安德罗丁(Android,词源希腊文,意为“像人的”,安卓命名来由)。
- 1942年,机器人三大定律,由美国科幻作家艾萨克·阿西莫夫在小说《我,机器人》中提出。
人工智能的另一个历史渊源是关于人脑的研究,主要集中在早期人类关于思考中枢的探索(普遍由心脏转向大脑),以及关于神经系统的研究。
- 公元前4000年,人类对大脑的第一次文字记录。古埃及人通过解剖尸体发现了人体的神经系统,他们相信大脑是思维和感觉的中心,而神经是传递信息的通道;但那时的人们普遍的观点是心脏中心论,心脏才是情感和精神活动的发源之处,这种观点也隐含在宗教信仰中。
- 古希腊时期,亚里士多德在《动物学》一书中描述了动物的神经系统结构和功能。医生希波克拉底在他的著作中宣称,大脑是身体信号的唯一翻译,并向全身传递信号。公元5世纪起,人们才逐渐把大脑看作是最重要的器官,但此时欧洲开始进入中世纪,解剖人体成为禁忌,神经科学发展停滞。
- 17世纪,法国哲学家笛卡尔提出机械论挂念,认为动物行为的原理是机械的,而非灵性的;威利斯提出了人脑的高级认知功能来自大脑皮层的褶皱的观点,并指出大脑皮质越光滑的动物,在自然界的等级就越低。
- 18世纪,意大利生理学家伽利略·加利莱提出动物电流理论,认为神经信号是通过电流传导的
- 19世纪,西班牙神经科学家拉蒙·卡哈尔提出神经元学说,提出了神经元之间通过突触传递信号的假设。1890s,神经元特性明确,美国著名心理学家W.James关于人脑结构与功能的研究,指出神经元有四大特性:
- 每个神经元都是一个多输入单输出的信息处理单元;
- 神经元输入分兴奋性输入和抑制性输入两种类型;
- 神经元具有空间整合特性和阈值特性;
- 神经元输入与输出间有固定的时滞,主要取决于突触延搁。
- 1904,神经元之间传递信息的神经递质被提出,即神经元之间通过胆碱类等化学物质传递信息。
- 1943,M-P神经元模型(阈值逻辑单元),人工神经网络拉开序幕(跳转至M-P神经元理论),M-P神经元模型是后来人工神经网络模型的基础理论。
此外,早期数学的发展也是人工智能的基石之一,但由于牵涉面较广且大多是后世AI技术对数学原理的再应用,因此在此不罗列,后续会在深度学习以及其他技术的专门章节里介绍。
2 理论奠基期:1936-1950
在这一阶段出现了计算机和人工智能奠基性的理论,其中最值得一提的是人工智能三大流派起源。其中自动机理论衍生出符号主义(形式化逻辑),M-P神经元理论衍生出连接主义(神经网络),控制论衍生出行为主义(Agent与环境交互)。
- 1936,自动机(Automation)理论,艾伦·图灵(Alan Turing),在On Computable Numbers with an Application to the Entscheidungs-problem 中定义了一种通用机器的概念,后来更名为图灵机。图灵机是能够接收、存储和转换信息的系统,核心概念是状态转移,模拟了人类计算的过程,是形式化语言和逻辑推理、计算机系统、控制论等理论的基础。
- 1943,M-P神经元理论,美国神经生理学家沃伦·麦卡洛克(Warren McCuloch)和数学家沃尔特·皮茨(Walter Pitts)提出,并用二人的姓首字母命名。
- 阈值逻辑单元,对生物神经元抽象(连接权重[weights],阈值[bias],激活[activate])。
- 权值表示生物神经元具有不同的突触性质和强度不同,其正负区分兴奋和抑制,其大小则代表连接强度。
- 累加性,对全部输入信号进行累加整合,神经元激活释放脉冲与否取决于某一阈值电平
- 1944,博弈论(Game Theory),约翰·冯诺依曼和奥斯卡·摩根斯坦,主要研究公式化了的激励结构间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。
- 1946,首台计算机ENIAC,本质是根据图灵机原理制造的指令执行机器。还不是冯诺依曼结构。
- 1948,信息论(Information Theory),克劳德·香农,核心思想是信息可被量化,基本概念包括信息熵、信道容量、信息失真。
- 1948,控制论(Feedback Control & Cybernetics),诺伯特·维纳,研究如何通过各种信号反馈来自动修正系统误差使系统趋于预定目标。
- 1949,赫布法则(Hebb’s Rule),神经元之间连接可学习。如果一个神经元的激活反复多次出现在另一个神经元的激活之后,两个神经元之间的连接就会变得越来越紧密。这种可变性是学习和记忆的基础,为构造有学习功能的神经网络模型奠定了基础。
- 1950,图灵测试,《计算机器与智能》,分隔对话形式,让测试者们平均做出超过30%的误判。
3 前深度学习时代:1956-2000初,三起两落
三起两落是一个认可度比较广的说法,但具体的时间边界较为模糊,下文尽可能做到精确,主要参考文章1,文章2,知识工程,聚类。此外,在文章架构上分三起两落,其中附带一些里程碑事件,也欢迎补充。
3.1 第一次热潮,1956-1969,连接主义
人工智能和机器学习概念诞生,第一次热潮由人工神经网络领域的Perception感知机掀起(本质是一个线性模型),研究资金主要来自政府和军方。该段时期出现了现代机器学习理论中大部分的理论雏形,如线性模型(逻辑回归)、贝叶斯分类器(朴素贝叶斯)、神经网络、支持向量机(硬间隔)、卷积神经网络CNN、聚类(K-Means)、最近邻KNN、强化学习(动态规划DP)以及专家系统。
- 1956,人工智能概念提出,年轻学者们的革命性会议,达特茅斯学院,约翰·麦卡锡首次提出了人工智能概念。斯坦福大学人工智能实验室创始人约翰·麦卡锡、信息论的创始人克劳德·香农以及人工智能与认知学专家马文·闵斯基等参会。
- 1957,美国应用数学家Richard Bellman提出动态规划法,强化学习的开头。
- 1958,感知机Perception,康奈尔大学,罗森布拉特Rosenblatt,首个可以学习的人工神经网络
- 输入层+输出层,无隐藏层,有监督学习能解决线性二分类问题。
- 论文The Perceptron: A Probabilistic model for information storage and organization in the brain感知机:大脑中信息存储和组织的概率模型
- 1958,逻辑回归Logistic Regression命名并被用于美国人口普查。实际上,1795年,高斯就使用了线性神经网,但Legendre在1805年首先发表了这个方法。那时它被称为最小二乘法,或广泛称为线性回归。
- 1958,美国数学家艾伦·勒布朗(Allan Irwin Lewis)在一篇论文中提出朴素贝叶斯分类器,但贝叶斯理论来自英国数学家和物理学家迈克尔·贝叶斯(Thomas Bayes)于1763年发表的论文。
- 1959,机器学习概念提出,IBM 亚瑟萨缪尔Samuel的改进其1952年写的西洋跳棋程序使其智能化。
- 1960,维德罗首次使用Delta学习规则(最小均方误差LMS,最小二乘法)训练感知机,大多数当代误差修正器的基本算法
- 1962,Hubel-Wiese生物视觉模型,CNN雏形。
- 1963,Vapnik和Chervonenkis提出原始SVM算法。
- 1963,Ward提出层次聚类算法,非常符合人的直观思维的算法,现在还在使用。它的一些实现方式,包括SLINK,CLINK则诞生于1970年代。
- 1965,费根鲍姆E.A.Feigenbaum等人在斯坦福大学研制了世界上第一个专家系统DENDRAL,这个系统主要用于推断化学分子结构。
- 1967,James MacQueen提出K平均聚类算法(K-means)。
- 1968年,Cover和Hart提出KNN最近邻算法(The nearest neighbor algorithm)出现。
- 1968,《2001太空漫游》,影响文艺界,库布里克科幻神作
- 1969,马文·明斯基Minsky和Papert对单层感知机的质疑:本质是线性分类器,无法求解非线性分类问题(XOR异或问题)。由此导致70年代AI首次寒冬,经费缩减。
3.2 第一次寒冬,1970s,感知机的能力局限
第一次寒冬开始于1969年马文·明斯基对感知机的质疑,Perception由于只有输入和输出层,只能处理线性运算,ANN因理论缺陷也未能达到预期效果而转入低潮。虽然这个时期温斯顿(Winston)的结构学习系统和海斯·罗思(Hayes Roth)等基于逻辑的归纳学习系统取得较大的进展,但只能学习单一概念,而且未能投入实际应用。综上,理论研究停滞和计算机硬件限制,使得整个人工智能领域的发展都遇到了很大的瓶颈,政府和军方停止了对相关方面的投入,人工智能的第一次寒冬来临。期间有一些关键事件如下,核心是专家系统的酝酿:
- 1971,Vapnik和Chervonenkis提出VC维概念。
- 1972,Edward H. Shortliffe等研制出第一个使用知识库和似然推理的专家系统MYCIN,用于诊断和治疗感染性疾病。20世纪70年代中期以前,专家系统多属于数据解释型(DENDRAL、PROSPECTOR、 HEARSAY 等)和故障诊断型( MYCIN、CASNET、INTERNIST 等)。它们所处理的问题基本上是可分解的问题。
- 1974,误差逆传播算法(Error BackPropagation),Paul J. Werbos,以自动微分的反向模型(reverse mode of automatic differentiation)为名提出,尝试改进感知机参数需要人工设定的不足,BP算法的前身,但仅仅停留在理论阶段。
- 1977,聚类的EM算法(E/M Step)。
- 1977年,费根鲍姆Feigenbaum分析了传统人工智能忽略了具体的知识,强调人工智能必须引进知识,从而提出知识工程的概念。他提出了一个广泛接受的观点:“知识是人工智能中的力量”。70年代后期,专家系统开始出现其他的类型,包括超大规模集成电路设计系统KBVLSI、自动程序设计系统 PSI 等设计型专家系统;遗传学实验设计系统MOLGEN、安排机器人行动步骤的NOAH等规划型专家系统;感染病诊断治疗教学系统 GUIDON、蒸气动力设备操作教学系统 STEAMER 等教育型专家系统;军事冲突预测系统 IW 和暴雨预报系统 STEAMER 等预测型专家系统。
- 1979,福岛邦彦(Kunihiko Fukushima)在STRL开发了一种用于模式识别的神经网络模型:Neocognitron,这是首个使用卷积和下采样的卷积神经网络(CNN)计算模型雏形。CNN发展历史见后文。
3.3 第二次热潮,1980s,符号主义
人工智能的第二次热潮由符号主义的专家系统掀起:1980s,符号主义代表产品——专家系统,核心观点是人类知识是一个严谨的符号系统,可以用形式化方法进行表示和推理
- 知识工程KE:核心是逻辑语言和方法,早期作为专家系统的配件
- 1977,提出知识工程,见上。
- 2011,Judea Pearl,概率图模型PGM(贝叶斯网络),图灵奖
- 2012,Google知识图谱技术,将知识分割为主体和关系,符号化表示如(RDF、RDFS、OWL),向量表示(Trans系列算法)
- 2016,Berners-Lee,语义网
- 专家系统:基于知识库和规则的自动推理系统,可以理解为一个分支复杂的if/else结构的加强版(例如,有模糊推理)。在之前的酝酿下,80年代专家系统在生产制造领域中的应用已非常广泛,比如CAD/CAM和工程设计、机器故障诊断及维护、生产过程控制、调度和生产管理等。这些应用在提高产品质量和产生巨大经济效益方面带来了巨大成效,从而极大地推动了生产力的发展。80年代估计全世界的专家系统有2000到3000种,1987年研制成功的专家系统有1000种。
- 决策树:无参数可学习的机器学习算法,树状图解分类方法,基于信息增益等概念,目标是将样本分割到预定的属性叶节点。
- 1984,布雷曼Breiman发表分类回归树(CART算法,一种决策树)
- 1986,昆兰Quinlan提出ID3算法,符号主义机器学习算法的突破点。
期间机器学习其他方向也在发展(神经网络)
- 1980,第一届机器学习国际研讨会,标志着机器学习研究在世界范围内兴起,ICML的前身。
- 1981,伟博斯Werbos提出多层感知机MLP(Multi-Layer Perceptron),突破感知机局限,可解非线性问题,层数一般8层内。请注意,多层感知机的命名由来已久,甚至可追随至19世纪之前。但一般认为1981年伟博斯在神经网络反向传播(BP)算法中具体提出多层感知机模型为正式起点。
- 1982,Hopfield提出了具备能量函数及网络稳定性等概念的神经网络,一般被视作RNN循环神经网络 (Recurrent Neural Network) /递归神经网络(Recursive Neural Network )的正式起源。请注意,RNN的概念和起源众说纷纭,在此选择最一般的说法,具体见后文深度学习部分
- 1984,计算学习理论,Leslie Valiant提出概率近似正确学习(Probably approximately correct learning,PAC),是机器学习的数学分析的框架,它将计算复杂度理论引入机器学习,描述了机器学习的有限假设空间的可学习性,无限空间的VC维相关的可学习性等问题。
- 1986,连接主义取得突破——BP反向传播:使得ANN可以有隐藏层,Rumelhart,Hinton和Williams联合在Nature杂志重新提出BP(Backpropagation)算法,自动求解MLP最优参数组合。神经网络研究人员(鲁梅尔哈特,辛顿,威廉姆斯-赫,尼尔森)相继提出了使用BP算法训练的多参数线性规划(MLP)的理念,成为后来深度学习的基石。
3.4 第二次寒冬,1987-1995,专家系统的应用瓶颈
1987年爆发了全球性的经济危机,股市崩盘,投资疲软。加之由于技术挑战和预期过高导致的失望,以及投资环境的变化,AI领域再次进入了一个相对停滞的阶段。这个阶段没有明确的界限,一般认为是到1987年到1995年出现SVM这个强力的机器学习算法为止。
- 符号主义,专家系统实用性差,专家系统应用瓶颈(知识工程成本大、使用门槛高、维护难、决策树状态空间爆炸)。进入20世纪九十年代后,人们对专家系统的研究转向了与知识工程、模糊技术、实时操作技术、神经网络技术、数据库技术等相结合的专家系统,这也是专家系统今后的研究方向和发展趋势。
- 连接主义
- 1989,LeCun首先使用误差反向传播训练卷积神经网络(CNN)架构。神经网络应用在在1990s铺开,如Yann LeCun的银行手写识别OCR。但能力有限,相对鸡肋。
3.5 第三次热潮预热,1990s-21世纪初
第三次热潮由统计机器学习(支持向量机)预热,在2006年在深度学习领域迎来第一次爆发(预训练+微调范式被提出),第二次爆发应当是2020年GPT-3验证了扩展法则出现涌现能力。后两次爆发是本系列第二、三部分的内容。
-
现代机器学习理论奠基
- 1990, Schapire提出Boosting算法(集成学习Essemble Learning,用弱分类算法在样本子集上训练生成一系列的基分类器),这是一种多项式级的算法,但存在实践上的缺陷,要求事先知道弱学习算法学习正确的下限。
- 1992,Kernel SVM,通过核技巧kernel trick实现非线性分类。
- 1993,Quinalan提出C4.5决策树算法,
- 1995,Vapnik和Cortes的统计学习理论提出具有极强理论支持的支持向量机——软间隔支持向量机SVM,重要突破,该算法具有非常强大的理论地位和实证结果,那一段时间机器学习研究也分为NN和SVM两派。SVM超参数少,且在大多数任务的表现比ANN更好。
- 1997,Freund和Schapire提出了另一种可靠的机器学习方法Adaboost
- 2000,Jianbo Shi谱聚类算法。
- 2001,布雷曼Breiman提出随机森林Random Forests(RF),通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树。N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想
-
人工神经网络停滞的十年:虽然CNN应用铺开,但依旧较为鸡肋,比如超参数太难以确定。此外,MLP+BP解决了单层感知机的局限,但大多8层内,实际应用价值不高。当层数增加,出现了新的问题,即BP算法过程中会造成梯度爆炸或消失。所以大概在1995年到2006,神经网络经历了发展停滞的十年。
- 1991,Sepp Hochreiter的工作证明了ANN的一个严重缺陷,神经元饱和后会出现梯度爆炸和梯度消失问题 (exploding and vanishing gradient problem, EVGP)。
- 1997,Sepp Hochreiter 与 Jürgen Schmidhuber 联合发表了长短期注意(LSTM)的论文,被认为是机器学习发展史上的一座里程碑。深度学习的基础就是基于 Sepp Hochreiter 对梯度消失和梯度爆炸的分析构建的。
- 2003,Bengio在神经网络语言模型(NNLM)中首次观察到预训练+微调的作用。论文为A Neural Probabilistic Language Model,发表在Journal of Machine Learning Research 3 (2003),但事实上在NeurIPS 2000上就有同名文章发布。但正式提出要等到2006年Hinton的工作,具体见后文。