#今日论文推荐# 南大最新综述论文:基于模型的强化学习

#今日论文推荐# 南大最新综述论文:基于模型的强化学习

强化学习(RL)通过与环境交互的试错过程来解决顺序决策问题。虽然RL在允许大量试错的复杂电子游戏中取得了杰出的成功,但在现实世界中犯错总是不希望的。
为了提高样本效率从而减少误差,基于模型的强化学习(MBRL)被认为是一个有前途的方向,它建立的环境模型中可以进行试错,而不需要实际成本。
本文对MBRL的研究现状进行了综述,并着重介绍了近年来研究的进展。对于非表格环境,学习到的环境模型与实际环境之间存在泛化误差。因此,分析环境模型中策略训练与实际环境中策略训练的差异,对算法设计、模型使用和策略训练具有重要的指导意义。
此外,我们还讨论了离线在线学习、目标条件在线学习、多智能体在线学习和元在线学习等基于模型的在线学习技术的最新进展,以及MBRL在实际任务中的适用性和优势。
最后,我们讨论了MBRL未来的发展前景。我们认为MBRL在实际应用中具有巨大的潜力和优势,但这些优势往往被忽视,希望本文的综述能够吸引更多关于MBRL的研究。

论文题目:A Survey on Model-based Reinforcement Learning
详细解读:https://www.aminer.cn/research_report/62eb36117cb68b460ffb3cb1icon-default.png?t=M666https://www.aminer.cn/research_report/62eb36117cb68b460ffb3cb1
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值