强化学习之PILCO (一)：引入

最新推荐文章于 2024-09-10 08:45:09 发布

lyl1621

最新推荐文章于 2024-09-10 08:45:09 发布

阅读量2k

点赞数

分类专栏： RL学习笔记文章标签：强化学习 PILCO

本文链接：https://blog.csdn.net/lyl1621/article/details/93622971

版权

本文介绍了强化学习的基本概念，强调了学习效率问题，并探讨了如何利用高斯过程（GPs）降低模型偏差。PILCO算法通过动态模型学习、策略评估和策略改进，解决连续动作空间的RL问题，利用GPs表示环境模型，以提高数据效率。

摘要由CSDN通过智能技术生成

Introduction

说明

说明

这一系列博客是根据PILCO算法(Probabilistic inference for learning control)的提出者Marc Peter Deisenroth 的书做的笔记和摘要，欢迎交流，有错误请指出。

主要参考书籍和论文,：

Books:
Deisenroth, Marc. (2010). Efficient Reinforcement Learning using Gaussian Processes.
Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M]. Cambridge, MA: MIT Press, 2006.（想深入了解高斯过程在机器学习的应用可参考）

Papers:
Deisenroth M, Rasmussen C E. PILCO: A model-based and data-efficient approach to policy search[C]//Proceedings of the 28th International Conference on machine learning (ICML-11). 2011: 465-472.
M. P. Deisenroth, D. Fox and C. E. Rasmussen, “Gaussian Processes for Data-Efficient Learning in Robotics and Control,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 2, pp.