在阅读Richard S. Sutton和Andrew G. Barto合著的《Reinforcement Learning:An Introduction》第一版时,我们就看到作者在书的开头单列一页写到“In memory of A. Harry Klopf”,但网上几乎搜索不到关于 A. Harry Klopf的资料。在第一版的前言部分,也仅仅有两句话提及了Harry,分别是:
- “我们在1979年末开始关注现在所谓的强化学习。我们都在马萨诸塞大学,致力于一个早期项目即复兴 ‘ 对于人工适应性智能( artificial adaptive intelligence)来说,神经元自适应元素网络(networks of neuronlike adaptive elements)可能被证明是一种有前途的方法 ’ 的想法。该项目探索了由A. Harry Klopf开发的‘自适应系统的异质性理论(heterostatic theory of adaptive systems)’。哈利的工作是丰富的思想来源,我们被允许批判性地探索它们,并将它们与自适应系统中先前工作的悠久历史进行比较。”
- “在某种意义上,我们已经为这本书工作了三十年,我们有很多人要感谢。首先,我们感谢那些亲自帮助我们发展本书中提出的整体观点的人:Harry Klopf,帮助我们认识到强化学习需要复兴;…”
从以上两段话我们可以看到,Harry启发了作者去探索强化学习,并为他们做了一些前期工作。我们可以从另一句同样来自第一版前言中的话话窥得一二:“虽然强化学习明显激发了一些最早的有关学习的计算研究,但大多数研究人员已经开始研究其他方面,例如模式分类,监督学习和自适应控制,或者他们完全放弃了关于学习的研究。因此,学习如何从环境中获取某些东西所涉及的特殊问题得到的关注相对较少。”由此,作者选择了这一条少有人走的路——强化学习,一走就是四十年。
但是我们得到的有关Harry的信息仍然有限,直到2018年12月《强化学习》第二版的出现,在这一版的前言部分,作者用半页多的笔墨讲述了他们和Harry的故事,现摘抄并翻译如下:
“与第一版一样,本书的这一版本致力于纪念A. Harry Klopf。正是哈利把我们介绍给对方,正是他对大脑和人工智能的想法引发了我们对强化学习的长期探索。Harry在神经生理学方面受过长期训练,对机器智能很感兴趣,他曾是俄亥俄州赖特 - 帕特森空军基地空军科学研究所(AFOSR)的航空电子理事会的高级科学家。他对在解释自然智能和为机器智能提供基础方面强调包括动态平衡和纠错模式分类方法在内的均衡寻求过程的重要性表示不满。(He was dissatisfied with the great importance attributed to equilibrium-seeking processes, including homeostasisand error-correcting pattern classification methods, in explaining natural intelligence and in providing a basis for machine intelligence.)他指出,试图最大化某些东西(无论可能是什么)的系统在本质上与均衡寻求系统不同,他认为最大化系统是理解自然智能的重要方面和构建人工智能的关键。Harry帮助从AFOSR获得资金,用于评估这些和相关想法的科学价值的项目。该项目于20世纪70年代末在马萨诸塞州阿默斯特大学(UMass Amherst)进行,最初由Michael Arbib,William Kilmer和Nico Spinelli领导,他们是阿默斯特大学计算机与信息科学系的教授,也是该大学系统神经科学控制论中心的创始成员,一个专注于神经科学和人工智能交叉的有远见的团队。Barto,那时是一位刚获得博士学位的密歇根大学学生,被聘为该项目的博士后研究员。与此同时,在斯坦福大学攻读计算机科学和心理学的本科生Sutton与Harry就他们对刺激时间在经典限制下的作用的共同兴趣进行了交流。(Sutton, an undergraduate studying computer science and psychology at Stanford, had been corresponding with Harry regarding their mutual interest in the role of stimulus timing in classical conditioning. )Harry向阿默斯特大学小组建议,Sutton将是该项目的一个很好的补充。因此,Sutton成为阿默斯特大学的研究生,并在Barto的指导下获得了博士学位,此时Barto已成为副教授。本书中提到的强化学习研究正是Harry策划的项目的结果,并受到他的思想的启发。此外,Harry将我们作者带到一起,进行了长期愉快的互动。通过将这本书献给Harry,我们向他表示敬意,不仅因为他把我们带进了强化学习领域,而且还使我们相互合作。”
以上翻译原文来自于《强化学习》第二版前言部分,部分专有名词由机器翻译,如有翻译错误希望大家指正。
参考资料:《强化学习》第二版PDF