基本概念
Agent - 本体。学习者、决策者。
Environment - 环境。本体外部的一切。 - 状态(state)。一个表示环境的数据。
- 所有状态集合。环境中所有的可能状态。
- 行动(action)。本体可以做的动作。
- 所有行动集合。本体可以做的所有动作。
- 状态
的行动集合。本体在状态
下,可以做的所有动作。
- 奖赏(reward)。本体在一个行动后,获得的奖赏。
- 所有奖赏集合。本体可以获得的所有奖赏。
- 第t步的状态(state)。
from 0
- 第t步的行动(select action)。
from 0
- 第t步的奖赏(reward)。
from 1
- 第t步的长期回报(return)。
from 0。 强化学习的目标1:追求最大回报
|
可以看出,当时,只考虑当前的奖赏。当
时,未来的奖赏没有损失。
- 第t步的n步回报(n-step return)。一个回报的近似算法。
![]() |
- 第t步的
回报(
- return)。一个回报的近似算法。可以说是
的优化。