在强化学习学习过程中,往往存在这样一种问题:总的动作空间很大,但是在特定状态下有些动作不可行,如何处理? 例如:迷宫问题中当智能体处于迷宫边缘(1,1),此时采取向左或者向上的动作都会超出迷宫边缘。 在现实生活中确实有很多不可执行的动作,受到很多约束限制。目前所了解到的处理方式有以下几种: 1. 把动作集分为两部分:可执行动作和不可行执行动作。在选择动作的时候在可行动作的范围内。 2. 通过对动作设置惩罚项(目前是最常用的) 大家还有什么好的方法么?欢迎评论