《数学之美》第2章 自然语言处理——从规则到统计 读书笔记
1.核心内容:自然语言处理靠 语法规则vs统计的历史
2.精句:
“第一,计算机是否能处理自然语言。第二,如果能,那么它处理自然语言的方法是否和人类一样?这两个问题的回答都是肯定的。”
“全世界的科学家对计算机处理自然语言的认识都局限在人类学习语言的方式上,也就是说用电脑模拟人脑,这20多年的成果近乎为零。”
”到90年代以后,坚持前一种方法的研究人员越来越少,参会人数也自然越来越少,而后者却越来越多,这样自然语言处理从规则到统计的过渡就完成了。“
”大家发现通过统计得到的句法规则甚至比语言学家总结的更有说服力。“
“老科学家可以理解成老的科学家或者老科学的家,这两种如果是后者,他们年纪不算老,但是已经落伍,大家必须耐心的等他们退休,让出位置,等这批人退休之后,科学就会以更快的速度发展。”
”基于统计的自然语言处理方法在数学模型上和通信是相通的,甚至就是相同的。“
3.心得:
在技术领域万万不可墨守成规。同时要尊重数学规律。
达特茅斯会议:
人工智能的起源公认为是1956年的达特茅斯会议,这次大会标志着“人工智能”这一概念的诞生。先介绍下本次大会的关键学者。
会议的主要发起人——约翰·麦卡锡(John McCarthy),计算科学家、认知科学家,也是他提出了“人工智能”的概念。麦卡锡对于人工智能的兴趣始于1948年参加的一个名为“脑行为机制”的讨论会,会上,冯·诺伊曼(John von Neumann)提出的自复制自动机(可以复制自身的机器)激起麦卡锡的好奇,自此开始尝试在计算机上模拟智能。达特茅斯会议前后,麦卡锡的主要研究方向是计算机下棋。
另一位积极的参与者是当时在哈佛大学的明斯基(Marvin Minsky,1969年图灵奖获得者),他的老师塔克(Albert Tucker)多年来担任普林斯顿大学数学系主任,主要研究非线性规划和博弈论。1951年,明斯基建造了世界上第一个神经网络模拟器Snare。在Snare的基础上,明斯基解决了“使机器能基于对过去行为的知识,预测当前行为的结果”这一问题,并完成了他的博士论文《Neural Nets and the Brain Model Problem》。
塞弗里奇(Oliver Selfridge),模式识别的奠基人,后来领导了MAC项目,这个项目后被分为计算机科学实验室与人工智能实验室,又合并为麻省理工学院最大的实验室MIT CSAIL。
另外两位重量级参与者是纽厄尔(Allen Newell)和西蒙(Herbert Simon),这两位学者后来共享了1975年的图灵奖。
纽厄尔在普林斯顿大学数学系硕士毕业后,加入了美国著名的兰德公司,并结识了西蒙,开始了他们一生的合作。纽厄尔和西蒙提出了物理符号系统假设,简单的说就是:智能是对符号的操作,最原始的符号对应于物理客体。这一假设与西蒙提出的有限合理性原理成为人工智能三大学派之一——符号主义的主要依据。后来,他们与珀里思(Alan Perlis,第一届图灵奖获得者)共创了卡内基梅隆大学的计算机系。
最后,信息论的创始人香农(Claude Shannon),他比其他几位年长10岁左右,当时已经是贝尔实验室的大佬。1950年,香农发表论文《Programming a computer for playing chess》,为计算机下棋奠定了理论基础。
除上述学者外,IBM的塞缪尔(Arthur Samuel),达特茅斯的摩尔(Trenchard More)、算法概率论的创始人所罗门诺夫(Ray Solomonoff)等学者也参与了这次会议。
1953年夏天,麦卡锡和明斯基都在贝尔实验室为香农打工。香农当时在研究图灵机及是否可以用图灵机作为智能活动的理论基础,但是麦卡锡只对计算机实现智能感兴趣。由于与香农研究方向上的不同加上麦卡锡认为香农在一些时候过于理论,所以麦卡锡与IBM第一代通用机701的主设计师罗切斯特(Nathaniel Rochester)计划搞一次活动,主要讨论机器模拟智能,并说动香农与明斯基共同写了一个项目建议书以寻求活动资助。
麦卡锡给这个活动起了一个名字:人工智能夏季研讨会(Summer Research Project on Artificial Intelligence)。
会议的主要议题有以下7个方面:
自动计算机(自动指可编程)
如何为计算机编程,使其能够使用语言
神经网络
计算规模理论
自我改进(指机械学习)
抽象
随机性与创造性