马尔可夫决策过程(Markov decision process)
以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。
智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。
马尔可夫决策过程的前提
马尔可夫性质
P
(
s
t
+
1
∣
s
t
)
=
P
(
s
t
+
1
∣
s
0
,
s
1
,
⋯
,
s
t
)
P\left(s_{t+1} \mid s_t\right)=P\left(s_{t+1} \mid s_0, s_1, \cdots, s_t\right)
P(st+1∣st)=P(st+1∣s0,s1,⋯,st)
马尔可夫性质是指在某个时刻,状态的条件概率分布只依赖于当前状态,而与之前的状态以及采取的动作无关。简单来说,就是未来只和当前的状态有关,过去不影响未来。
实际上,在许多问题中,状态之间的依赖和联系非常复杂,存在大量的历史信息与环境相关。在具体的情境下,当我们要解决问题不能严格满足马尔可夫性质的条件时,是可以结合其他的方法来辅助强化学习进行决策的。
马尔科夫链
强化学习中的环境也不是严格意义上的静止环境,它也可以是其他智能体。有时智能体和环境的角色是能相互对调的,只要能各自建模成马尔可夫决策过程即可。
在马尔可夫链中,随机变量的取值被称作“状态”,每个状态转移到其他状态的概率与当前状态和目标状态相关。这种概率称为“转移概率”,用矩阵形式表达。该矩阵称为“转移矩阵”,通常用 P 表示。马尔可夫链可以用图形表示,其中节点是状态,边是转移概率。
S t + 1 = s 1 S_{t+1}=s_1 St+1=s1 | S t + 1 = s 2 S_{t+1}=s_2 St+1=s2 | S t + 1 = s 3 S_{t+1}=s_3 St+1=s3 | |
---|---|---|---|
S t = s 1 S_{t}=s_1 St=s1 | P 11 P_{11} P11 | P 12 P_{12} P12 | P 13 P_{13} P13 |
S t = s 2 S_{t}=s_2 St=s2 | P 21 P_{21} P21 | P 22 P_{22} P22 | P 23 P_{23} P23 |
S t = s 3 S_{t}=s_3 St=s3 | P 31 P_{31} P31 | P 32 P_{32} P32 | P 33 P_{33} P33 |
状态转移矩阵
状态转移矩阵是描述马尔可夫链中各个状态之间转移概率的矩阵。在一个具有n个状态的马尔可夫链中,状态转移矩阵P通常是一个 n × n n×n n×n的方阵,其中第 i i i行第 j j j列的元素 p i j p_{ij} pij表示从状态i转移到状态j的概率。
P s s ′ = ( p 11 p 12 ⋯ p 1 n p 21 p 22 ⋯ p 2 n ⋮ ⋮ ⋱ ⋮ p n 1 p n 2 ⋯ p n n ) P_{s s^{\prime}}=\left(\begin{array}{cccc}p_{11} & p_{12} & \cdots & p_{1 n} \\ p_{21} & p_{22} & \cdots & p_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ p_{n 1} & p_{n 2} & \cdots & p_{n n}\end{array}\right) Pss′= p11p21⋮pn1p12p22⋮pn2⋯⋯⋱⋯p1np2n⋮pnn
状态转移矩阵可以完全描述以时间齐次马尔可夫链模型为基础的随机过程。根据马尔可夫链的基本性质,转移概率是与当前状态相关的,并且不依赖于过去的状态。在马尔可夫链中,状态转移矩阵是一个常数矩阵,与时间无关。
回报
G
t
=
r
t
+
1
+
γ
r
t
+
2
+
γ
2
r
t
+
3
+
⋯
=
∑
k
=
0
T
=
∞
γ
k
r
t
+
k
+
1
G_t=r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\cdots=\sum_{k=0}^{T=\infty} \gamma^k r_{t+k+1}
Gt=rt+1+γrt+2+γ2rt+3+⋯=∑k=0T=∞γkrt+k+1
r
r
r是指代理系统在环境中执行某个动作后立即获得的奖励值。在强化学习中,我们通常会设置一个折扣因子γ来衡量当前时刻的奖励与未来时刻的奖励相比的重要性。
关联
在马尔科夫链(马尔可夫过程)的基础上,引入了奖励元素,则形成了马尔科夫奖励过程,即 Markov Reward Process (MRP)。在MRP中,每个状态都有一个关联的奖励值,该奖励值表示进入该状态可以获得的立即回报(immediate reward)。在MRP中,我们需要考虑状态转移概率矩阵和奖励向量,以计算每个状态的价值函数。
在马尔可夫奖励过程基础上增加动作的元素就会形成马尔可夫决策过程,在强化学习中,我们需要处理的问题通常就是如何通过MDP模型来找到一个最优的策略,即最大化期望累积奖励。
马尔可夫决策过程
马尔可夫决策过程可以用一个五元组
<
S
,
A
,
R
,
P
,
γ
>
<S,A,R,P,γ >
<S,A,R,P,γ>
来表示。
状态集合(S):所有可能的状态组成的集合。
动作空间(A):是可以采取的所有可能动作的集合。
转移函数(P):描述在某个状态下,下一个状态的概率分布。
奖励函数(R):它定义了在状态转移时代理系统获得的奖励函数。
折扣因子(γ ):用于衡量长远回报的重要性,即当前时刻的奖励与未来时刻的奖励相比重要性的相对权重。