基本概念
Agent - 本体。学习者、决策者。
Environment - 环境。本体外部的一切。
- 状态(state)。一个表示环境的数据。
- 所有状态集合。环境中所有的可能状态。
- 行动(action)。本体可以做的动作。
- 所有行动集合。本体可以做的所有动作。
- 状态的行动集合。本体在状态下,可以做的所有动作。
- 奖赏(reward)。本体在一个行动后,获得的奖赏。
- 所有奖赏集合。本体可以获得的所有奖赏。
- 第t步的状态(state)。 from 0
- 第t步的行动(select action)。 from 0
- 第t步的奖赏(reward)。 from 1
- 第t步的长期回报(return)。 from 0。 强化学习的目标1:追求最大回报
|
可以看出,当时,只考虑当前的奖赏。当时,未来的奖赏没有损失。
- 第t步的n步回报(n-step return)。一个回报的近似算法。
- 第t步的回报( - return)。一个回报的近似算法。可以说是的优化。