强化学习之PILCO (一):引入

本文介绍了强化学习的基本概念,强调了学习效率问题,并探讨了如何利用高斯过程(GPs)降低模型偏差。PILCO算法通过动态模型学习、策略评估和策略改进,解决连续动作空间的RL问题,利用GPs表示环境模型,以提高数据效率。
摘要由CSDN通过智能技术生成

说明

这一系列博客是根据PILCO算法(Probabilistic inference for learning control)的提出者Marc Peter Deisenroth 的书做的笔记和摘要,欢迎交流,有错误请指出。

主要参考书籍和论文,:

Books:
Deisenroth, Marc. (2010). Efficient Reinforcement Learning using Gaussian Processes.
Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M]. Cambridge, MA: MIT Press, 2006.(想深入了解高斯过程在机器学习的应用可参考)

Papers:
Deisenroth M, Rasmussen C E. PILCO: A model-based and data-efficient approach to policy search[C]//Proceedings of the 28th International Conference on machine learning (ICML-11). 2011: 465-472.
M. P. Deisenroth, D. Fox and C. E. Rasmussen, “Gaussian Processes for Data-Efficient Learning in Robotics and Control,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 2, pp.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值