【无标题】

aaaaPIKACHU

已于 2023-02-13 20:17:16 修改

阅读量53

点赞数

分类专栏：四足机器人文章标签：人工智能

于 2022-05-22 21:50:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aaaaPIKACHU/article/details/124910405

版权

四足机器人专栏收录该内容

7 篇文章 11 订阅

订阅专栏

model-based RL分为黑盒模型和白盒模型。黑盒模型就是把model当做一个simulator，然后用simulator生成虚拟数据，把虚拟数据当做真实环境收集的数据做model-free RL。之所以叫黑盒模型是因为算法其实不知道数据是怎么产生的（或者说不知道model的解析表达式），只是把模型当做一个可以自动产生数据的simulator。这种黑盒的方法是目前比较主流的，也是比较容易理解的，因为他的大部分理论都建立在model free RL上。

另一种白盒模型就完全不同了，它把model当做一个解析的表达式，然后可以用来解析的计算值函数，然后直接梯度下降更新策略（注意这里的梯度下降会用到模型对动作的导数，只有当你有解析表达式的时候才可能获得）。PILCO就属于这一类，所以整体的理论还有公式都是上面的黑盒模型有很大的不同。再加上PILCO的模型是高斯过程模型，论文里还混杂着高斯过程模型的公式，需要有对应的基础才能理解。总的来说那篇论文确实很难看懂。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

model-based RL分为黑盒模型和白盒模型。黑盒模型就是把model当做一个simulator，然后用simulator生成虚拟数据，把虚拟数据当做真实环境收集的数据做model-free RL。之所以叫黑盒模型是因为算法其实不知道数据是怎么产生的（或者说不知道model的解析表达式），只是把模型当做一个可以自动产生数据的simulator。这种黑盒的方法是目前比较主流的，也是比较容易理解的，因为他的大部分理论都建立在model free RL上。另一种白盒模型就完全不同了，它把model当做一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。