Terminologies(名词)
状态(State)
每个时刻,环境有一个状态 (state),可以理解为对当前时刻环境的概括
状态(State) 有时也被称为观测(Observation),因为有时智能体并不能观测到环境改变后的全部,只能观测到部分。
环境(Environment)
环境 (environment) 是与智能体进行交互的对象,可以抽象地理解为交互过程中的规则或机制。
动作(Action)
动作 (action) 是智能体基于当前状态所做出的决策。
智能体(Agent)
强化学习的主体被称为智能体 (agent)。通俗地说,由谁做动作或决策,谁就是智能体。
状态空间(State Space)
状态空间 (state space) 是指所有可能存在状态的集合,记作花体字母 S。
状态空间可以是离散的,也可以是连续的。状态空间可以是有限集合,也可以是无限可数集合。
动作空间(Action Apace)
动作空间 (action space) 是指所有可能动作的集合,记作花体字母 A
动作空间可以是离散集合或连续集合,可以是有限集合或无限集合。
策略(Policy)
**策略 (policy)**根据观测到的状态,如何做出决策,即如何从动作空间中选取一个动作。
π ( a ∣ s ) = P ( A = a ∣ S = s ) π(a|s) = P(A=a|S=s) π(a∣s)=P(A=a∣S=s)
强化学习的目标就是得到一个策略函数 (policy function),也叫π函数 ( function) ,在每个时刻根据观测到的状态做出决策。策略可以是确定性的,也可以是随机性的,两种都非常有用。
奖励(Reward)
奖励 (reward) 是指在智能体执行一个动作之后,环境返回给智能体的一个数值。奖励往往由我们自己来定义,奖励定义得好坏非常影响强化学习的结果。
状态转移(State transition)
状态转移 (state transition) 是指智能体从当前 t t t时刻的状态 s s s转移到下一个时刻状态为 s ′ s' s′的过程
我们用状态转移概率函数 (state transition probability function) 来描述状态转移,记作
p t ( s ′ ∣ s , a ) = P ( S t + 1 ′ = s ′ ∣ S t = s , A t = a ) p_t(s'|s,a) = P(S'_{t+1}=s'|S_t=s,A_t=a) pt(s′∣s,a)=P(St+1′=s′∣St=s,At=a)
表示这个事件的概率: 在当前状态 s s s ,智能体执行动作 a a a,环境的状态变成 s ′ s' s′
马尔可夫决策过程 (Markov decision process, MDP)
强化学习的数学基础和建模工具是马尔可夫决策过程 (Markov decision process,MDP)
一个 MDP 通常由状态空间、动作空间、状态转移函数、奖励函数、折扣因子等组成。
Return and Value
回报(Return)
回报 (return) 是从当前时刻开始到本回合结束的所有奖励的总和,所以回报也叫做累计奖励 (cumulative future reward)。
把 t t t时刻的回报记作随机变量 U t U_t Ut。如果一回合游戏结束,已经观测到所有奖励,那么就把回报记作 u t u_t ut。设本回合在时刻 n n n结束。定义回报为:
U t = R t + R t + 1 + R t + 2 + R t + 3 + . . . + R n U_t = R_t+R_{t+1}+R_{t+2}+R_{t+3}+...+R_{n} Ut=Rt+Rt+1+Rt+2+Rt+3+...+Rn
回报是未来获得的奖励总和,所以智能体的目标就是让回报尽量大,越大越好。强化学习的目标就是寻找一个策略,使得回报的期望最大化。这个策略称为最优策略 (optimum policy)。
折扣回报(Discounted Return)
在 MDP 中,通常使用折扣回报 (discounted return),给未来的奖励做折扣。折扣回报的定义如下:
U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + . . . U_t = R_t+\gamma R_{t+1}+\gamma ^2R_{t+2}+\gamma ^3R_{t+3}+... Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+...
这里的 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ∈[0,1]叫折扣率。对待越久远的未来,给奖励打的折扣越大。
t t t时刻当前状态 s t s_t