漫谈基于模型的强化学习方法 PILCO - Probabilistic Inference for Learning Control

PILCO是一种基于模型的强化学习算法,通过概率动力学模型处理模型误差。它包括三层:学习状态转移概率模型、对长期预测进行近似推断以及策略更新。文章介绍了PILCO算法的基本原理和改进,如滤波PILCO、有向探索PILCO和深度PILCO,用于处理可观测性、探索和高维度问题。
摘要由CSDN通过智能技术生成

基于模型的强化学习方法最大的问题是模型误差。针对此类问题,业界提出了 PILCO (Probabilistic Inference for Learning Control)算法。它把模型误差纳入考虑的范围。它解决模型偏差的方法不是集中于一个单独的动力学模型,而是建立了概率动力学模型,即动力学模型上的分布。也就是说,PILCO建立的模型并不是具体的某个确定性函数,而是建立一个可以描述一切可行模型(所有通过已知训练数据的模型)上的概率分布。

该概率模型有两个目的:

  1. 它表达和表示了学习到的动力学模型的不确定性;
  2. 模型不确定性被集成到长期的规划和决策中。

本文中我们不对PILCO的推导做详细讨论,PILCO的具体内容可参考如下论文:

Deisenroth M P, Rasmussen C E. PILCO: A Model-based and Data-efficient Approach to Policy Search. Int. Conf. on Machine Learning, Bellevue, Washington, USA, Jane 28-July, pp. 465-472, 2011.
Deisenroth M P, Rasmussen C E and Fox D. Learning to Control a Low-Cost Manipulator Using Data-Efficient Reinforcement Learning. Robotics: Science and Systems, 2011.

PILCO

PILCO 算法概述

PILCO算法包含三个层次:

Created with Raphaël 2.1.2 顶层 - 策略更新 中层 - 对长期预测进行近似推断 底层 - 学习转移概率模型

底层学习一个状态转移概率模型 f f ;中层利用该状态转移概率模型和策略 π ,预测在策略 π π 下,后续的状态分布,并利用 Vπ(x0)=Tt=0c(xt)p(xt)d

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值