《强化学习与最优控制》学习笔记(四): Model-Based 与 Model-Free Implementation以及Off-line 与 On-line Method概述

写在前面的

前一章链接:

《强化学习与最优控制》学习笔记(三):强化学习中值空间近似和策略空间近似概述

这章主要是介绍一些概念,即 Model-Based 与 Model-Free Implementation以及Off-line 与 On-line Method,方便后面内容的学习。

Model-Based 与 Model-Free Implementation

我们在前面的学习就已经知道,一个有限阶段(finite horizon)的DP问题的数学模型如下:

在model-based中,求解DP问题通常要假设f_kg_k甚至w_k的分布我们能够得到,也就说给定任意的(x_k,u_k,w_k),我们就能得到p_k(w_k|x_k,u_k)。对于J_{k}^{*}中的期望部分,主要是通过代数的方法来计算,也就是既然我们都知道p_k(w_k|x_k,u_k)了,就把每一个g_k乘上p_k然后总体加起来就是期望,很清楚地就能感觉到,其实在很多情况下,我们都不一定能够都得到这些信息,所以说现在在学术界基于model-based的方法还是比较少,但是假如我们能得到这些信息的话,其实对于系统的帮助是很大的,所以model-based的方法还是有相当大的研究意义的。 

而在model-free中,期望的部分就改用蒙特卡罗模拟(Monte Carlo simulation),其实这个也很好理解。举个最简单的抛硬币的例子,假设硬币是两面且材质均匀(不均匀的话正反面概率会不一样,得到的期望也会不一样),抛到正面为1,反面为0。那么很容易就能知道,当抛的次数达到很多很多次时,其平均值就会非常接近实际期望0.5。得益于现在计算机的发展,我们可以在求解问题的时候用仿真器(或使用大量数据)来做大量的实验,从而逼近期望值。

注意到在确定性问题(deterministic problems)中是没有期望,所以说只能用model-based的办法来求解。

Off-line 与 On-line Method

在值空间近似中,我们需要计算\tilde{J}_{k+1}和对应的策略\tilde{\mu}_k

那么就有两种方法可以考虑使用来计算,这两种方法分别是Off-line methods(在控制过程开始之前)与 On-line methods(在控制过程开始之后):

Off-line methods:在控制过程开始之前,完成需要求解策略\tilde{\mu}_k的大部分计算,这种方法就是Off-line methods。比如算好\tilde{J}_{k+1}(算这个通常比较花时间)然后存储起来,当控制过程开始之后,就能够很快地算出相应的策略。

On-line methods:这类方法就是说在观测到当前状态x_k之后,再计算与之相关的\tilde{J}_{k+1},然后再得到策略\tilde{\mu}_k,执行后观测下一个状态x_{k+1},如此循环。

写在后面的

下一章链接:

《强化学习与最优控制》学习笔记(五): 值空间近似的一般问题与方法

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

向南而行灬

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值