一、日常生活中一些典型的应用的例子
理解强化学习的一个好方法是考虑一些能够通过经验积累指导解决问题发展趋势的例子和可能的应用。一位国际象棋大师出招,选择既取决于计划——预计可能的回复和反回复——也取决于对特定立场和动作的可取性的即时、直观的判断。
•自适应控制器实时调整炼油厂操作的参数。控制器在指定边际成本的基础上优化产量/成本/质量权衡,而不严格遵守工程师最初建议的设定点。
•一只小羚羊在出生几分钟后挣扎着站起来。半小时后,它以每小时20英里的速度行驶。
•移动机器人决定是应该进入一个新房间寻找更多的垃圾来收集,还是开始试图找到返回电池充电站的路。它根据电池当前的充电水平以及过去能多快、多容易地找到充电器来做出决定。
•准备早餐。仔细观察,即使是这种看似平凡的活动,也揭示了一个由条件行为和相互锁定的目标-子目标关系组成的复杂网络:走到橱柜前,打开它,选择一个麦片盒,然后伸手、抓住并取回盒子。为了得到一个碗、勺子和牛奶罐,还需要其他复杂的、经过调整的、互动的行为序列。每一步都涉及一系列的眼球运动,以获取信息并指导伸手和移动。人们会不断快速判断如何携带这些物品,或者在获得其他物品之前,是否最好先将其中一些物品运送到餐桌上。每一步都以目标为指导,比如抓住勺子或去冰箱,并为其他目标服务,比如在准备好麦片后用勺子吃饭,并最终获得营养。无论是否意识到,他都在获取有关身体状态的信息,这些信息决定了他的营养需求、饥饿程度和食物偏好。
这些示例共享的特性非常基本,很容易被忽略。所有这些都涉及主动决策主体与其环境之间的互动,尽管环境存在不确定性,但主体仍在其中寻求实现目标。代理的行为被允许影响环境的未来状态(例如,下一个国际象棋位置、炼油厂的水库水位、机器人的下一个位置和其电池的未来充电水平),从而影响代理在以后可用的选项和机会。正确的选择需要考虑到行动的间接、延迟后果,因此可能需要远见或计划。
二、这些例子的共性规律
与此同时,在所有这些例子中,行动的影响无法完全预测;因此,代理必须频繁地监视其环境并做出适当的反应。例如,菲尔必须注意把牛奶倒进麦片碗里,以免牛奶溢出。所有这些例子都涉及明确的目标,即代理可以根据其直接感知的内容来判断朝着目标的进展。棋手知道自己是否获胜,炼油厂管理员知道正在生产多少石油,移动机器人知道电池何时耗尽,菲尔知道自己是否在享受早餐。
代理人及其环境都可能与我们通常认为的代理人及其环境不一致。代理不一定是整个机器人或生物体,其环境也不一定只是机器人或生物体之外的环境。示例机器人的电池是其控制代理环境的一部分,饥饿程度和食物偏好是其内部决策代理环境的特征。代理人环境的状态通常包括代理人所在的机器或生物体的状态信息,这可能包括记忆甚至愿望。在这本书中,当我们谈论代理及其环境时,我们是以这种方式抽象的。
三、经验的积累与应用
在所有这些例子中,代理可以利用其经验来随着时间的推移提高其性能。国际象棋棋手完善了他用来评估位置的直觉,从而提高了他的棋局;小羚羊提高了它奔跑的效率;学会了简化早餐的制作。智能体在开始时为任务带来的知识——无论是来自以前的相关任务经验,还是通过设计或进化构建的——都会影响有用或易于学习的内容,但与环境的互动对于调整行为以利用任务的特定特征至关重要。