【ICML2024】深度强化学习中的随机潜在探索

ce8b2dd8aa7737ee7944add1d5ec65f4.png

来源:专知
本文为论文介绍,建议阅读5分钟本文介绍了一种名为随机潜在探索(Random Latent Exploration,RLE)的新探索技术。

59c5cbb0ff43dfe7299f737bee5a1bff.png

高效探索高维状态空间的能力对于深度强化学习(RL)的实际成功至关重要。本文介绍了一种名为随机潜在探索(Random Latent Exploration,RLE)的新探索技术,该技术结合了奖励加成和噪声加成(两种深度RL中有效探索的流行方法)的优势。RLE利用了通过在环境的某些(随机)状态中向原始任务奖励添加结构化随机奖励来扰动奖励的想法,以鼓励代理在训练过程中探索环境。RLE实现简单,实践效果良好。为了展示RLE的实际有效性,我们在具有挑战性的ATARI和ISAACGYM基准上进行了评估,结果表明RLE在所有任务中表现出的总体得分高于其他方法。

daa0ab823e3abe351cde0a413f3b5c82.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

7ae7f2ccae070a2ecd71b7e448b9da53.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值