强化学习之PILCO (一):引入

说明

这一系列博客是根据PILCO算法(Probabilistic inference for learning control)的提出者Marc Peter Deisenroth 的书做的笔记和摘要,欢迎交流,有错误请指出。

主要参考书籍和论文,:

Books:
Deisenroth, Marc. (2010). Efficient Reinforcement Learning using Gaussian Processes.
Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M]. Cambridge, MA: MIT Press, 2006.(想深入了解高斯过程在机器学习的应用可参考)

Papers:
Deisenroth M, Rasmussen C E. PILCO: A model-based and data-efficient approach to policy search[C]//Proceedings of the 28th International Conference on machine learning (ICML-11). 2011: 465-472.
M. P. Deisenroth, D. Fox and C. E. Rasmussen, “Gaussian Processes for Data-Efficient Learning in Robotics and Control,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 2, pp.

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习中的PILCO算法(Probabilistic Inference for Learning Control)是一种用于模型学习和控制的方法。PILCO算法是基于高斯过程模型的强化学习算法,旨在通过使用概率推理和优化方法来学习控制器,以最小化系统的执行代价。 PILCO算法的核心思想是通过对系统模型进行在线更新来实现模型学习。算法在每个时间步骤中依次执行以下步骤:首先,通过执行当前控制策略对系统进行采样,然后使用这些样本数据对系统模型进行更新。更新模型的目的是获得更准确的系统动力学模型来预测系统的未来行为。 在每个时间步骤中,PILCO算法使用高斯过程来建模系统动力学的不确定性。通过使用高斯过程可以表示系统的不确定性,并且可以通过观测数据来不断更新系统的模型。然后,使用贝叶斯推理和优化方法来计算最优的控制策略。这意味着PILCO算法关注最小化系统执行代价的控制策略,以期望在未来的交互中获得更好的控制性能。 PILCO算法的优势在于它能够在缺乏先验知识的情况下学习系统模型,并且可以在模型不断更新的同时进行控制。同时,通过基于高斯过程的不确定性建模,PILCO算法也能够对系统的不确定性进行有效处理。然而,PILCO算法在实际应用中也存在一些挑战,例如控制器设计需要满足计算复杂度的要求,并且在复杂系统中的应用存在模型不确定性下的控制问题。 总之,PILCO算法是一种强化学习中用于模型学习和控制的算法,它通过使用高斯过程对系统进行建模和更新,并使用贝叶斯推理和优化方法来计算最优的控制策略。通过这种方式,PILCO算法可以在无先验知识的情况下学习系统,并在实时控制中取得良好的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值