漫谈基于模型的强化学习方法 PILCO - Probabilistic Inference for Learning Control

最新推荐文章于 2022-03-20 15:49:56 发布

止于至玄

最新推荐文章于 2022-03-20 15:49:56 发布

阅读量8.2k

点赞数 3

分类专栏： Reinforcement Learning 文章标签：强化学习

本文链接：https://blog.csdn.net/philthinker/article/details/79749038

版权

PILCO是一种基于模型的强化学习算法，通过概率动力学模型处理模型误差。它包括三层：学习状态转移概率模型、对长期预测进行近似推断以及策略更新。文章介绍了PILCO算法的基本原理和改进，如滤波PILCO、有向探索PILCO和深度PILCO，用于处理可观测性、探索和高维度问题。

摘要由CSDN通过智能技术生成

基于模型的强化学习方法最大的问题是模型误差。针对此类问题，业界提出了 PILCO （Probabilistic Inference for Learning Control）算法。它把模型误差纳入考虑的范围。它解决模型偏差的方法不是集中于一个单独的动力学模型，而是建立了概率动力学模型，即动力学模型上的分布。也就是说，PILCO建立的模型并不是具体的某个确定性函数，而是建立一个可以描述一切可行模型（所有通过已知训练数据的模型）上的概率分布。

该概率模型有两个目的：

它表达和表示了学习到的动力学模型的不确定性；
模型不确定性被集成到长期的规划和决策中。

本文中我们不对PILCO的推导做详细讨论，PILCO的具体内容可参考如下论文：

Deisenroth M P, Rasmussen C E. PILCO: A Model-based and Data-efficient Approach to Policy Search. Int. Conf. on Machine Learning, Bellevue, Washington, USA, Jane 28-July, pp. 465-472, 2011.
Deisenroth M P, Rasmussen C E and Fox D. Learning to Control a Low-Cost Manipulator Using Data-Efficient Reinforcement Learning. Robotics: Science and Systems, 2011.

PILCO
PILCO 算法的改进

PILCO

PILCO 算法概述

PILCO算法包含三个层次：

底层学习一个状态转移概率模型 $f$ ；中层利用该状态转移概率模型和策略 $\pi$ ，预测在策略 $\pi$ 下，后续的状态分布，并利用 Vπ(x0)=∑Tt=0∫c(xt)p(xt)d

最低0.47元/天解锁文章

止于至玄

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
7
评论
漫谈基于模型的强化学习方法 PILCO - Probabilistic Inference for Learning Control

基于模型的强化学习方法最大的问题是模型误差。针对此类问题，业界提出了 PILCO （Probabilistic Inference for Learning Control）算法。它把模型误差纳入考虑的范围。它解决模型偏差的方法不是集中于一个单独的动力学模型，而是建立了概率动力学模型，即动力学模型上的分布。也就是说，PILCO建立的模型并不是具体的某个确定性函数，而是建立一个可以描述一切可行模型（...
复制链接

扫一扫

专栏目录