无模型
再解释一下什么是无模型?无模型就是状态转移函数,回报函数不知道的情况,不知道在
(
s
,
a
)
(s,a)
(s,a)的情况下,状态怎么转移,回报函数也不知道,
π
(
s
t
+
1
∣
s
t
,
a
t
)
\pi (s_{t+1} | s_t, a_t)
π(st+1∣st,at)的转移概率未知。
在基于模型的动态规划方法中是基于模型的,包括策略迭代法和值函数迭代法,可以统一到广义策略迭代法,即先进行策略评估(计算值函数),然后基于基函数做策略改善,这种思想同样适用于无模型的情况。
蒙特卡洛方法
在给定的策略
π
\pi
π的作用下,可以计算
累
积
回
报
{\color{red}{累积回报}}
累积回报
G
t
G_t
Gt,
G
t
=
R
t
+
1
+
γ
R
t
+
2
+
.
.
.
.
=
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
G_t=R_{t+1}+\gamma R_{t+2}+....=\sum_{k=0}^\infty \gamma^kR_{t+k+1}
Gt=Rt+1+γRt+2+....=∑k=0∞γkRt+k+1
状态值函数和状态-行为值函数的本质是期望。
状
态
值
函
数
{\color{red}{状态值函数}}
状态值函数
υ
π
(
s
)
=
E
π
[
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
∣
S
t
=
s
]
\upsilon_\pi(s)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s\big]
υπ(s)=Eπ[∑k=0∞γkRt+k+1∣St=s]
状
态
−
行
为
值
函
数
{\color{red}{状态-行为值函数}}
状态−行为值函数
q
π
(
s
,
a
)
=
E
π
[
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
∣
S
t
=
s
,
A
t
=
a
]
q_\pi(s,a)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s, A_t=a\big]
qπ(s,a)=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a],
在模型已知的情况下,可以通过模型计算期望。在无模型的情况下,可以通过经验平均来估计期望,常采用蒙特卡罗实验方法。基本的思路就是利用蒙特卡洛反复实验,得到实验数据,计算经验平均,在经验平均的基础上进行策略评估和改善。
v
n
(
s
)
=
1
n
∑
j
=
0
n
G
j
(
s
)
v_n(s)=\frac{1}{n} \sum_{j=0}^n G_j(s)
vn(s)=n1∑j=0nGj(s),
n
n
n表示访问状态
s
s
s的次数
具体的操作方法有:第一次访问蒙特卡洛方法和每次访问蒙特卡洛方法,前者估计的方差略小。
可以将上式改成递推的形式
v
n
(
s
)
=
v
n
−
1
(
s
)
+
1
n
(
G
n
(
s
)
−
V
n
−
1
)
v_n(s)=v_{n-1}(s)+\frac{1}{n}(G_n(s)-V_{n-1})
vn(s)=vn−1(s)+n1(Gn(s)−Vn−1)
基于蒙特卡洛的强化学习方法
- 所有状态初始化,值函数初始化
- 反复随机选择一个状态,以一个策略(行动策略)选择该状态下的一个行为,得到反馈序列,对在实验中出现的每一个状态-行为对以及附属的回报,计算对应的状态-行为值函数。
- 进行策略评估和改善(目标策略)
基于蒙特卡洛的强化学习方法(随机策略计算状态值函数)
基于蒙特卡洛的强化学习方法( ε − g r e e d y \varepsilon-greedy ε−greedy策略计算状态行为值函数)
同策略和异策略
如果行动策略和目标策略是相同的策略,称之为同策略;否则称之为异策略,异策略中的两个策略需要满足:行动策略包含或者覆盖目标策略。异策略可以保证充分的探索性。
参考书籍:
欢迎关注微信公众号:AITBOOK