强化学习中的 transition 和 episode

  1. Transition(转换): 在强化学习的上下文中,一个 transition 表示智能体(agent)与其环境之间交互的一个步骤。具体来说,它指的是在一个给定状态下,智能体采取一个动作,然后环境基于其内在规则反馈下一个状态以及相应的奖励。通常,一个 transition 可以形式化地表示为一个四元组 (S_t, A_t, R_t, S_{t+1}),其中:

    • S_t 是在时间步 t 时智能体所处的状态;
    • A_t 是在该状态下智能体选择执行的动作;
    • R_t 是执行动作 A_t 后立即获得的即时奖励(immediate reward);
    • S_{t+1} 是执行动作后环境转移到的新状态。
  2. Episode(回合): 在强化学习的任务中,一个 episode 是智能体从某一初始状态开始,经过一系列的 transitions,直到达到某种终止条件为止的完整互动过程。在 episodic 任务中,每一个 episode 都是一个独立的任务实例,它可以是一个完整的游戏回合、机器人完成指定任务的过程或者是任何其他有明确开始和结束标志的情境。episode 结束可能是由于智能体成功达到预定目标,也可能是由于某些失败条件被触发(比如游戏结束或智能体遭受无法恢复的损失)。强化学习算法通常会在多个 episode 上进行训练,累积经验并更新其策略。

总结一下,transition 是强化学习中时间序列上的单个步长,而 episode 是由多个连续的 transition 组成的整个任务或挑战的生命周期。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值