第一节——基本概念
1.State
即目标对于环境的一个状态,使用 s i s_i si来表示每一个状态,状态空间表示为 S = { s i } i = 1 n S=\{s_i\}^n_{i=1} S={si}i=1n
2.Action
即目标在每个状态采取的行动,使用 a i a_i ai表示每一个行动,行动空间表示为 A ( s i ) = { a i } i = 1 n \mathcal{A}(s_i)=\{a_i\}^n_{i=1} A(si)={ai}i=1n
行动空间依赖于状态,即不同状态对应不同的行动空间
3.Policy
策略告诉了我们目标(agent)在每一个状态采取的动作,用
π
\pi
π来表示策略
π
(
a
1
∣
s
1
)
=
0
\pi(a_1|s_1)=0
π(a1∣s1)=0
表示在
s
1
s_1
s1状态下采取动作
a
1
a_1
a1的概率
4.Reward
RL中的独有概念,表示目标在行动过后得到的值
- 如果Reward大于0,则表示行为受到鼓励
- 否则,表示不希望发生这样的行为
- 0表示什么都没发生
5.Trajectory
轨迹,表示状态-行动-奖励链,如下
s
1
→
r
=
0
a
2
s
2
→
r
=
0
a
3
s
5
→
r
=
0
a
3
s
8
→
r
=
1
a
2
s
9
s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_2}s_9
s1a2r=0s2a3r=0s5a3r=0s8a2r=1s9
6.Return
返回值,等于整个轨迹上所有的奖励 r r r加在一起的结果、
discounted return
返回值为无穷,引入discount rate =
γ
∈
[
0
,
1
)
γ\in[0,1)
γ∈[0,1)
d
i
s
c
o
u
n
t
e
d
r
e
t
u
r
n
=
0
+
γ
r
1
+
γ
2
r
2
+
γ
3
r
3
+
…
…
discounted\ return = 0 + \gamma r_1+\gamma^2 r_2 + \gamma^3 r_3 + ……
discounted return=0+γr1+γ2r2+γ3r3+……
好处
- 使结果为有限值
- 平衡近远未来的返回值
- 如果γ趋于0,则discounted return值由前面的reward决定
- 反之趋于1,由后面的决定
7.Episode
- 从开始到停下来时候的状态的轨迹,称为一个Episode
- Episode通常都是有限步数
8.MDP
MDP的要素
- 集合Sets:
- 状态State
- 动作action
- 奖励reward
- 概略分布probability distribution:
- 状态变换概率State transion probability: p ( s ′ ∣ s , a ) p(s'|s,a) p(s′∣s,a)表示从状态s采取动作a到达状态s’的概率
- 奖励概率reward probability: p ( r ∣ s , a ) p(r|s,a) p(r∣s,a)表示从状态s采取动作a得到奖励r的概率
- 策略Policy: π ( a ∣ s ) \pi(a|s) π(a∣s)
MDP代表“马尔可夫决策过程”(Markov Decision Process)。这是一个数学框架,用于描述一种随机的动态系统,在这种系统中,代理(通常是一个智能体或机器学习算法)采取行动,然后观察到环境的状态,从而获得奖励。
马氏过程(MDP的性质 memoryless property)
简单来说,对于一个马式过程,当前状态之和上一个状态有关,和之前所有状态都无关,即计算当前状态发生的概率,只用上一个状态的取值来计算即可。
如,考一个好高中,就可能考一个好大学,考一个好大学,就更有可能找一个好工作。
马尔可夫决策过程
在MDP中,添加了行为变量 A t A_t At与奖励变量 R t R_t Rt,则下一个时刻状态 S t S_t St由转移概率模型 P ( S t + 1 ∣ S t = s t , A t = a t ) P(S_{t+1}|S_t = s_t,A_t=a_t) P(St+1∣St=st,At=at)(马尔可夫可能性Markov property)决定,系统输出 R t R_t Rt由 P ( R t ∣ S t = s t , A t = a t ) P(R_t|S_t = s_t,A_t=a_t) P(Rt∣St=st,At=at)决定
如,在重点高中 S t S_{t} St努力学习 A t A_t At,考上好大学 R t R_t Rt的概率为90%,在重点高中不努力学习,考上好大学的概率为50%。
在普通中学努力学习,考上好大学的概率为60%,不努力概率为20%。
在MDP中,我们一般假定链的长度是有限的,并且一般不会太长。