引言:我们之前的一篇文章(混合动作空间 | 创造人工智能的黑魔法(1)_强化学习存在混合动作空间(离散+连续),如何处理_OpenDILab开源决策智能平台的博客-CSDN博客)中,详细地介绍了强化学习目前常见的动作空间类型,如离散动作、连续动作、混合动作等。本文则将以游戏环境为例,介绍如何对强化学习的动作空间进行预处理(action space shaping),以提升算法性能和收敛速度,另外相应的技术还可以为各种类似的真实决策AI应用场景带来启发,或是直接应用在其中。
本文主要参考了 《Action Space Shaping in Deep Reinforcement Learning》,有兴趣的读者可以详细阅读原论文了解更多细节。
原论文链接🔗:
https://arxiv.org/abs/2004.00980