本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成
一、Sampling-Based Approximation
本篇文章主要研究基于采样的估计行为,作为一种统计意义上的操作,采样被普遍认为是机器学习中相当有用模拟统计量的一个手段,无论是在路径规划还是在什么一些别的领域,sample都是非常有用的~
1. 回顾一下 Q ( s , a ) Q(s,a) Q(s,a)函数
Q ( s , a ) Q(s,a) Q(s,a)被称为Q函数,也是RL中常用的一种价值函数,不同于状态价值函数 V ( s ) V(s) V(s),Q函数的自变量有两个,分别是状态state和行为action,Q函数函数值代表的意义是:在状态 s s s下进行动作 a a a最终获得的期望奖励值,从其定义可以看出, V ∗ ( s ) = max a Q ∗ ( s , a ) V^*(s)=\max_aQ^*(s,a) V∗(s)=maxaQ∗(s,a)Q函数比V函数对“价值”的估计更加精细,带来了一个显而易见的好处,当我们获得环境的最优Q函数 Q ∗ ( s , a ) Q^*(s,a) Q∗(s,a)之后,策略就很容易确定,在每个state上选择相应action中Q函数值最大的一个就可以了。
对于最优Q函数,其也满足相应的Bellman Equation:
Q ∗ ( s , a ) = ∑ s ′ P ( s ′ ∣ s , a ) ( R ( s , a , s ′ ) + γ max a ′ Q ( s ′ , a ′ ) ) Q^*(s,a)=\sum_{s'}P(s'|s,a)(R(s,a,s')+\gamma \max_{a'}Q(s',a')) Q∗(s,a)=s′∑P(s′∣s,a)(R(s,a,s′)+γa′maxQ(s′,a′))
和价值迭代方法完全类似,我们可以采用Q-value Iteration的方法来进行迭代,对model已知的,确定的离散环境(state和action取值集合都是离散的,例如Gridworld游戏),求出所有的Q函数值来,这样的话最优策略 π ∗ \pi^* π∗自然就求出了,问题也得到了解决,迭代过程如下:
Q k + 1 ( s , a ) = ∑ s ′ P ( s ′ ∣ s , a ) ( R ( s , a , s ′ ) + γ m a x a ′ Q k ( s ′ , a ′ ) ) Q_{k+1}(s,a)=\sum_{s'}P(s'|s,a)(R(s,a,s')+\gamma max_{a'}Q_k(s',a')) Qk+1(s,a)