#今日论文推荐#一种基于决策树的 RL 策略，已构建54种元素模型，用于设计和发现新材料

将树搜索与深度学习相结合的强化学习 (RL) 方法在搜索非常大但离散的动作空间方面取得了显著成功，例如在国际象棋、将棋和围棋中。然而，许多现实世界的材料发现和设计应用涉及多维搜索问题和具有连续动作空间的学习领域。探索材料的高维势能模型就是一个例子。

传统上，这些搜索非常耗时（对于单个批量系统，通常需要几年时间），并由人类直觉或专业知识驱动，最近由全局/局部优化搜索驱动，这些搜索存在收敛问题和/或与搜索维度不匹配。

与离散动作和其他基于梯度的方法不同，美国阿贡国家实验室（Argonne National Laboratory）的研究人员引入了一种基于决策树的 RL 策略，该策略结合了改进探索的改进奖励、播放期间的有效采样和增强利用的「窗口缩放方案」，以实现对连续动作空间问题的高效和可伸缩搜索。使用高维人工景观和控制 RL 问题，该团队成功地将新方法分别与全局优化方案以及最先进的策略梯度方法进行了基准测试。

研究人员展示了它对周期表中 54 种不同元素系统以及合金的潜在模型（基于物理的和高维神经网络）参数化的功效。同时，他们分析了潜在空间中不同元素的误差趋势，并将其起源追溯到元素结构多样性和元素能量表面的平滑度。从广义上讲，该 RL 策略将适用于许多其他涉及连续动作空间搜索的物理科学问题。

该研究以「Learning in continuous action space for developing high dimensional potential energy models」于 2022 年 1 月 18 日发布在《Nature Communications》。

论文题目：Learning in continuous action space for developing high dimensional potential energy models.
详细解读：https://www.aminer.cn/research_report/627884ba7cb68b460fb36f1a?download=falsehttps://www.aminer.cn/research_report/627884ba7cb68b460fb36f1a?download=false
AMiner链接：https://www.aminer.cn/?f=cs