文章目录
1、Agent—Environment Interface
RL问题是指从互动中学习以到达目标的问题的简单框架。
学习者和决策者都被称为代理人(agent)。它与之交互的东西,包括了主体之外的一切,叫做环境(environment)。它们不断交互,agent选择动作,environment响应这些动作并向agent呈现新的状态,同时环境也会产生奖励,这是一种特殊的数值,随时间的推移,agent试图使其最大化。
agent和environment在离散时间步长(t=0,1,2,3,…)的每一个序列上进行交互。
在每个时间步t上,
- agent从环境中获得当前的状态: S t {S_t} St, S t ∈ S {S_t} \in S St∈S;
- agent根据当前的状态 S t {S_t} St,选择一个动作 A t {A_t} At, A t ∈ A ( S t ) {A_t} \in A({S_t}) At∈A(St),其中 A ( S t ) A({S_t}) A(St)是状态 S t {S_t} St中可用的动作集合;
- 一个时间步之后,agent从environment中获得一个数值奖励 R t + 1 {R_{t + 1}} Rt+1, R t + 1 ∈ R {R_{t + 1}} \in R Rt+1∈R,且找到一个新的状态 S t + 1 {S_{t + 1}} St+1;
agent:
- 实现状态 —> 动作的概率的映射,该映射被称为 agent 的 policy (策略),用 π t \pi_t πt 表示: π t ( a ∣ s ) \pi_t(a|s) πt(a∣s) 。
- 目标:最大化它在长期内获得的总回报,即获得的标量信号(reward)的累积的期望值的最大化。
2、Returns
定义累积回报:
其中,T 是最后一个时间步长。
当 T 有限时,这样的 task 称为 episodic tasks
当 T 无限时,这样的 task 称为 continuing tasks
考虑 discounting,对于 continuing tasks 的累积回报公式为:
其中,
γ
∈
[
0
,
1
]
\gamma\in[0,1]
γ∈[0,1] 。
3、episodic tasks 和 continuing tasks 的统一表示
将 episodic tasks 的终止状态(由下图中黑色正方形表示)定义为一种特殊的吸收状态,如下所示,到达终止状态之后不断循环,后续的所有奖励全部为0。这样就能把 episodic tasks 和 continuing tasks 的公式统一成一个公式:
对于episodic tasks,
γ
=
1
\gamma=1
γ=1 ;对于continuing tasks,
T
=
∝
T=\propto
T=∝ 。
4、The Markov Property
在 RL 框架中,agent 根据来自环境的信号(称为环境的状态)作出决策。这个状态信号能够简洁的概括过去的感觉,同时又能保留所有相关信息。我们把这样的能够成功保留所有信息的状态信号,称为 Markov,或具有 Markov Property。
定义 RL 问题的 Markov Property:
假设:状态和奖励值的数量有限
考虑在 t 时刻采取什么样的动作会在 t+1 时刻产生什么样的结果。一般这种反应的可能取决于之前发生的所有事情,此时:
如果状态信号具有 Markov Property,那么环境在 t+1 时刻的响应只取决于 t 时刻的状态和动作,这时,
在这种情况下,环境和任务作为一个整体也被认为具有 Markov Property。如果状态信号是 Non-Markov,在 RL 中也可以看成是对 Markov 状态的近似。
5、Markov Decision Processes
满足 Markov Property 的强化学习任务称为 Markov Decision Processes(MDP)。如果状态空间和动作空间都有限,这样的RL任务是 finite MDP。
给定任意状态 s 和动作 a,下一个状态
s
′
s'
s′ 和奖励 r 的概率表示为:
由此,可以计算 状态-动作 对的期望回报:
状态转移概率:
状态-动作-下一个状态 的期望回报:
6、Value Function
使用策略π,状态值函数——state-value function
动作值函数——action-value function
迭代状态值函数——iterative state-value function
7、Optimal Value Functions
最优状态值函数——optimal state-value function
最优动作值函数——optimal action-value function
最优的动作值等于最优的状态值下的最大期望:
贝尔曼最优方程:
求解最优方程时,计算量大,占用内存也比较大。
对于有限、小的状态集:可用数组/表来近似最优策略
对于很多的状态集:可用参数化的函数来近似最优策略
在RL中,一般很难或不能找到最优解,但是可以用某种方法来近似。