【无标题】

model-based RL分为黑盒模型和白盒模型。黑盒模型就是把model当做一个simulator,然后用simulator生成虚拟数据,把虚拟数据当做真实环境收集的数据做model-free RL。之所以叫黑盒模型是因为算法其实不知道数据是怎么产生的(或者说不知道model的解析表达式),只是把模型当做一个可以自动产生数据的simulator。这种黑盒的方法是目前比较主流的,也是比较容易理解的,因为他的大部分理论都建立在model free RL上。

另一种白盒模型就完全不同了,它把model当做一个解析的表达式,然后可以用来解析的计算值函数,然后直接梯度下降更新策略(注意这里的梯度下降会用到模型对动作的导数,只有当你有解析表达式的时候才可能获得)。PILCO就属于这一类,所以整体的理论还有公式都是上面的黑盒模型有很大的不同。再加上PILCO的模型是高斯过程模型,论文里还混杂着高斯过程模型的公式,需要有对应的基础才能理解。总的来说那篇论文确实很难看懂。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值