一、前言
强化学习又称增强学习,相关关键词:动态规划、最优控制。一般获得最优控制的过程可以理解为强化学习的过程。
二、强化学习的历史
强化学习历史有两条主线,漫长而丰富,在交织成为现代强化学习之前各自独立发展。一条主线考虑通过始于动物学习心理学的试错方法进行学习。这条线贯穿人工智能的一些早期工作,引发了20世纪80年代的强化学习复兴。另一条主线考虑优化控制问题及使用价值函数和动态规划解决这类问题。这条线大部分不涉及学习。虽然两条线很大程度上各自独立发展,但是还有一个特例就是第三条线,考虑像井字游戏中使用那种即时差分方法。这三条线在1980年代汇集到一起,产生了现代强化学习。
三、最优控制(optimal control)
动态规划被广泛认为是解决一般的随机最有控制问题唯一可行的方法。它受到Bellman所说的“维度的诅咒”,就是说它的计算需求随着状态变量的数量增加呈指数增长,但它仍然比其他通用防范更有效,更广泛发展,包括在部分可观测MDPby方面的拓展(surveyed by Lovejoy,1991),许多应用(surveyed by white,1985,1988,1993),近似方法(surveyed by Rust, 1996)以及异步方法(Bertsekas,1982,1983)。有许多优秀的动态规划现代处理方法很实用。Bryson(1996)写了一部权威的最优控制史。
四、试错学习(trial-and-error learning)
对于相同情况下的几种反应,如果伴随或紧随这种行为之后的是动物需求得以满足,那么在其他条件相同的情况下,将与该情况关联更强,因此在该情况反复出现的时候,这种反应将更有可能复发;如果伴随或紧随这种行为之后的动物感到不舒服,那么在其他条件相同的情况下,这种情况与这些反应的联系减弱,因此在该情况反复出现的时候,他们将不太可能发生。越多满意或不适,越会加强或削弱其关联性(Thorndike,1911,p.244)
五、即时差分学习(temporal-difference learning)
即时差分学习起源于动物学习心理学,尤其是在间接强化物的概念里。间接强化物是一种刺激,与初级强化如食物或疼痛一起出现,结果就会使其具有类似的强化属性。Minsky(1954)可能是第一个意识到这个心理学原理可以对人工学习系统起到重要作用。ArthurSamuel(1959)第一个提出并实现一个包含即时差分思想的学习方法,做为他的著名的下跳棋程序的一部分。
六、Q学习
即时差分学习和最有控制两条主线在1989年由Chris Watkins发展出的Q学习汇聚到一起。这项工作拓展和集成了之前强化学习研究的所有三条线的工作。1992年,Gerry Tesauro的玩西洋双陆棋程序TD-Gammon取得非凡成功,引起了更多对这一领域的注意。