-
Transition(转换): 在强化学习的上下文中,一个 transition 表示智能体(agent)与其环境之间交互的一个步骤。具体来说,它指的是在一个给定状态下,智能体采取一个动作,然后环境基于其内在规则反馈下一个状态以及相应的奖励。通常,一个 transition 可以形式化地表示为一个四元组
,其中:
是在时间步 t 时智能体所处的状态;
是在该状态下智能体选择执行的动作;
是执行动作A_t
后立即获得的即时奖励(immediate reward);
是执行动作后环境转移到的新状态。
-
Episode(回合): 在强化学习的任务中,一个 episode 是智能体从某一初始状态开始,经过一系列的 transitions,直到达到某种终止条件为止的完整互动过程。在 episodic 任务中,每一个 episode 都是一个独立的任务实例,它可以是一个完整的游戏回合、机器人完成指定任务的过程或者是任何其他有明确开始和结束标志的情境。episode 结束可能是由于智能体成功达到预定目标,也可能是由于某些失败条件被触发(比如游戏结束或智能体遭受无法恢复的损失)。强化学习算法通常会在多个 episode 上进行训练,累积经验并更新其策略。
总结一下,transition 是强化学习中时间序列上的单个步长,而 episode 是由多个连续的 transition 组成的整个任务或挑战的生命周期。