强化学习中的 transition 和 episode

最新推荐文章于 2024-12-10 15:46:39 发布

YH美洲大蠊

最新推荐文章于 2024-12-10 15:46:39 发布

阅读量1.3k

点赞数 8

文章标签：机器学习

本文链接：https://blog.csdn.net/YHKKun/article/details/137354996

版权

Transition（转换）：在强化学习的上下文中，一个 transition 表示智能体（agent）与其环境之间交互的一个步骤。具体来说，它指的是在一个给定状态下，智能体采取一个动作，然后环境基于其内在规则反馈下一个状态以及相应的奖励。通常，一个 transition 可以形式化地表示为一个四元组，其中：
- 是在时间步 t 时智能体所处的状态；
- 是在该状态下智能体选择执行的动作；
- 是执行动作 A_t 后立即获得的即时奖励（immediate reward）；
- 是执行动作后环境转移到的新状态。
Episode（回合）：在强化学习的任务中，一个 episode 是智能体从某一初始状态开始，经过一系列的 transitions，直到达到某种终止条件为止的完整互动过程。在 episodic 任务中，每一个 episode 都是一个独立的任务实例，它可以是一个完整的游戏回合、机器人完成指定任务的过程或者是任何其他有明确开始和结束标志的情境。episode 结束可能是由于智能体成功达到预定目标，也可能是由于某些失败条件被触发（比如游戏结束或智能体遭受无法恢复的损失）。强化学习算法通常会在多个 episode 上进行训练，累积经验并更新其策略。