第三章 有限马尔科夫决策过程
有限马尔科夫决策过程(MDP)是关于评估型反馈的,就像多臂老虎机问题里一样,但是有是关联型的问题。MDP是一个经典的关于连续序列决策的模型,其中动作不仅影响当前的反馈,也会影响接下来的状态以及以后的反馈。因此MDP需要考虑延迟反馈和当前反馈与延迟反馈之间的交换。
MDP是强化学习问题的一个数学理想化模型,以此来精确地从理论上描述。这章将会介绍强化学习里的一些关键问题,比如反馈reward,值函数value function和Bellman方程。
3.1 The Agent-Environment Interface
MDPs是一个从交互中达成目标的强化学习问题的一个直接的框架。学习者和决策者叫做agent。agent进行交互的其它一切agent之外的东西都叫做环境。agent不断的选择动作,而环境也给出相应的反应,并且向agent表现出新的状态。环境同时也给出一个数值作为反馈。agent的目标就是通过选择不同的action来最大化这个反馈值。
具体地说,agent和环境在每个离散时间步骤进行交互,t=1,2,。。。 每个时间步骤tagent会接收到环境的当前状态并且在状态的基础上选择动作。每一个步骤之后,作为动作的一个结果,agent会接收到一个数值反馈,并且会发现自己进入一个新的状态里,。
在有限MDP中,状态动作和反馈值都只有有限个元素。在这种情况下反馈和状态有一个只关于前一状态以及前一状态采取的动作的概率分布:。这个函数定义出了MDP的动态变化。这个函数对于状态和反馈值求和之后得到1。函数代表的是,下一个状态和反馈仅仅依赖于前一状态和前一状态的动作,而不是前面所有的状态以及动作。状态必须包含一切过往agent和环境交互的所有信息。这种状态叫做有马尔科夫性质。
概率分布函数p可以计算出关于环境的所有概率,比如状态转移概率:
同样也可以计算出每个状态动作对的反馈期望:
其中第一个四个参数的概率分布是我们最常使用的。
MDP框架是一个非常抽象而灵活的应用框架,可以通过不同方式用到不同问题上。比如,时间步骤不一定非得是固定间隔的,可以使任意需要作出决策的连续序列。动作可以使低层次的控制比如电压控制,也可以是高层次的决策比如去哪里吃饭。同样状态也可以是各种表现形式,动作也是一样。
需要注意的是,agent和环境之间的界限不是一成不变的。一般来说这个界限靠的离agent更近一些,可能与物理上机器人的界限不太一样。比如传感器和电机控制部分可以被认为是环境的一部分而非agent。其中划分的准则是任何不能被agent随意改变的部分都属于环境。比如agent可能知道每次reward是如何被反馈来的,但是reward的计算部分被认为在agent之外,因为agent不能随意改变它。agent与环境的界限代表的是agent的绝对控制,而不是了解。
而且这个界限也可以根据不同的任务目标进行调整。在一个复杂的机器人里面可能有不同的agent在同时运行。
MDP框架是一个非常抽象的目标导向的框架。它致力于把任务中所有的信息都归约为在agent与环境之间来回传播的三个信号:一是代表agent做出的选择(action),二是代表做出选择的基础(state)以及定义了agent目标的信号(reward)。对于如何把问题中的各个方面抽象成这些信号是一个更偏工程的问题,我们目前先关注在这些问题定义好之后的算法。
练习3.1 空调的控制 下象棋 做饭的火候控制
练习3.2 天气预报,不仅需要关注今天还需要关注前几天。
练习3.3 根据目标来决定界限划分。
练习3.4 只需要把r那一列往前放到一起
3.2 Goals and Rewards
在强化学习中,agent的目标是通过一个特殊的信号,reward来进行描述的。