强化学习主要包含4个元素:智能体(Agent),环境状态(State),行动(Action),反馈(Reward),它们之间的关系如图1.8所示,详细定义如下所示。图1.8 强化学习的4个元素
● 智能体:执行任务的客体,只能通过与环境互动来提升策略。
● 环境状态:在每一个时间节点,智能体所处环境的表示。
● 行动:在每一个环境状态中,智能体可以采取的动作。
● 反馈:每到一个环境状态,智能体就有可能会收到一个反馈。
2.强化学习算法的目标强化学习算法的目标是获得最多的累计奖励(正反馈)。以“幼童学习走路”为例:幼童学习走路时,没有人指导他应该如何完成“走路”,他需要通过不断的尝试和外界对他的反馈来学习。在此例中,如图1.8所示,幼童即为Agent,“走路”这个任务实际上包含站起来、保持平衡、迈出左腿、迈出右腿等几个阶段……幼童采取行动进行尝试,当他成功完成某个子任务时(如站起来),就会获得一个巧克力(正反馈);当他做出了错误的动作时,他会被轻轻拍打一下(负反馈)。幼童通过不断尝试和调整,找出了一套最佳的策略,这套策略能使他获得最多的巧克力。显然,他学习的这套策略能使他顺利完成“走路”这个任务。
3.强化学习的特征强化学习主要包括以下两个特征。1)没有监督者,只有一个反馈信号。2)反馈是延迟的,不是立即生成的。强化学习是序列学习,时间在强化学习中具有重要的意义;Agent的行为会影响以后所有的决策。