来源:专知
本文为论文介绍,建议阅读5分钟本文介绍了一种名为随机潜在探索(Random Latent Exploration,RLE)的新探索技术。
高效探索高维状态空间的能力对于深度强化学习(RL)的实际成功至关重要。本文介绍了一种名为随机潜在探索(Random Latent Exploration,RLE)的新探索技术,该技术结合了奖励加成和噪声加成(两种深度RL中有效探索的流行方法)的优势。RLE利用了通过在环境的某些(随机)状态中向原始任务奖励添加结构化随机奖励来扰动奖励的想法,以鼓励代理在训练过程中探索环境。RLE实现简单,实践效果良好。为了展示RLE的实际有效性,我们在具有挑战性的ATARI和ISAACGYM基准上进行了评估,结果表明RLE在所有任务中表现出的总体得分高于其他方法。
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU