强化学习(2):基于采样的model-free近似和拟合学习

本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成

一、Sampling-Based Approximation

本篇文章主要研究基于采样的估计行为,作为一种统计意义上的操作,采样被普遍认为是机器学习中相当有用模拟统计量的一个手段,无论是在路径规划还是在什么一些别的领域,sample都是非常有用的~

1. 回顾一下 Q ( s , a ) Q(s,a) Q(s,a)函数

Q ( s , a ) Q(s,a) Q(s,a)被称为Q函数,也是RL中常用的一种价值函数,不同于状态价值函数 V ( s ) V(s) V(s),Q函数的自变量有两个,分别是状态state和行为action,Q函数函数值代表的意义是:在状态 s s s下进行动作 a a a最终获得的期望奖励值,从其定义可以看出, V ∗ ( s ) = max ⁡ a Q ∗ ( s , a ) V^*(s)=\max_aQ^*(s,a) V(s)=maxaQ(s,a)Q函数比V函数对“价值”的估计更加精细,带来了一个显而易见的好处,当我们获得环境的最优Q函数 Q ∗ ( s , a ) Q^*(s,a) Q(s,a)之后,策略就很容易确定,在每个state上选择相应action中Q函数值最大的一个就可以了。

对于最优Q函数,其也满足相应的Bellman Equation
Q ∗ ( s , a ) = ∑ s ′ P ( s ′ ∣ s , a ) ( R ( s , a , s ′ ) + γ max ⁡ a ′ Q ( s ′ , a ′ ) ) Q^*(s,a)=\sum_{s'}P(s'|s,a)(R(s,a,s')+\gamma \max_{a'}Q(s',a')) Q(s,a)=sP(ss,a)(R(s,a,s)+γamaxQ(s,a))
和价值迭代方法完全类似,我们可以采用Q-value Iteration的方法来进行迭代,对model已知的,确定的离散环境(state和action取值集合都是离散的,例如Gridworld游戏),求出所有的Q函数值来,这样的话最优策略 π ∗ \pi^* π自然就求出了,问题也得到了解决,迭代过程如下:
Q k + 1 ( s , a ) = ∑ s ′ P ( s ′ ∣ s , a ) ( R ( s , a , s ′ ) + γ m a x a ′ Q k ( s ′ , a ′ ) ) Q_{k+1}(s,a)=\sum_{s'}P(s'|s,a)(R(s,a,s')+\gamma max_{a'}Q_k(s',a')) Qk+1(s,a)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值