《Reinforcement Learning: An Introduction》 读书笔记 - 目录
先来看一个例子
每天上班的路程,都是可以看作是一系列子过程的组合,如:走路去地铁站=>地铁1=>地铁2=>公交,总时长是这些子过程之和。每天我们依赖之前的经验,估计当天的时长,并更新我们的经验。
那么如何做出更好的估计呢?如何更快地积累有效的经验?
尤其是在一个没有适合model(回顾MDP中的 p(s′,r|s,a) p ( s ′ , r | s , a ) )的环境下
两种思路
回顾第二章中的迭代式更新reward方法:
New=Old+StepSize⋅(Target−Old) N e w = O l d + S t e p S i z e ⋅ ( T a r g e t − O l d )
这里并没有对model做任何假设,并且可以以一种在线、增量的方式进行更新
从而我们可以有两种方式:
const-α Monte Carlo
V(St)←V(St)+α(Gt−V(St)) V ( S t ) ← V ( S t ) + α ( G t − V ( S t ) )- stepsize设为一个固定的值 α α ,这样新的经验会占有更大的权重,能适应环境的变化
- target定义为 Gt G t ,也就是需要每一轮episode结束后才能进行更新
TD(0)
(one-step TD)
V(St)←V(St)+α[Rt+1+γV(St+1)−V(St)] V ( S t ) ← V ( S t ) + α [ R t + 1 + γ V ( S t