强化学习中的MASK掩码约束动作action

最新推荐文章于 2025-05-07 03:57:17 发布

蓝天白云大海沙滩Herman

最新推荐文章于 2025-05-07 03:57:17 发布

阅读量1.9k

点赞数 18

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_41106546/article/details/138438172

版权

参考强化学习中的MASK掩码约束动作action_强化学习硬约束动作掩码-CSDN博客

1、虽然可以制定相应的奖励函数，但是强化学习模型还是努力去学。

2、因此，在大多数RL落地的场景下，都会使用MASK掩码方法解决动作约束的问题

在强化学习解决问题的场景中，动作是体现学习效果最直接的因素，直接影响了智能体下一步的走向和对环境状态的改变。在应用强化学习解决实际问题时，往往不同于gym库中倒立摆那样的情况，而是存在很多的约束。例如，在t tt时刻智能体可选的动作为1 , 2 , 3 1,2,31,2,3，但是在t + 1 t+1t+1时刻只能选1 , 2 1,21,2，3 33处于不可用的状态。在这种情况下，就需要借助掩码mask来对智能体的动作进行处理。
有人会疑问：就不能制定相应的奖励函数使得智能体学习到这种约束吗？
这样做是可以的，但是付出的训练代价很大，并且极其容易导致模型发散。
因此，在大多数RL落地的场景下，都会使用MASK掩码方法解决动作约束的问题：

作者：zbloom
链接：https://www.zhihu.com/question/642964626/answer/3388797119
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

在强化学习中，多维离散动作空间中的动作屏蔽（Action Masking）是一种技术，用于在特定状态下限制或排除某些动作。这对于那些不总是所有动作都合法的环境来说尤为重要。例如，在某些游戏中，某些动作可能在当前状态下是不可执行的。

为了实现动作屏蔽，通常需要在智能体和其环境之间加入一个额外的接口，以便环境可以告诉智能体哪些动作是可行的。在实施时，可以采取以下步骤：

状态表示扩展：在状态表示中增加一个布尔掩码（mask），它与动作空间的大小相同。每个动作对应一个布尔值，其中 True 表示动作是可行的，而 False 表示动作在当前状态下不可行。
环境反馈：环境在返回状态信息的同时，也返回一个动作掩码给智能体。这个掩码需要根据当前状态来更新，确保它反映了哪些动作是允许的。
修改策略网络：智能体的策略网络需要修改，以便在生成动作时考虑动作掩码。有两种常见的方法来实现这一点：

概率修正：在策略网络输出动作概率分布之后，将不可行动作的概率设置为零，然后重新归一化概率分布。
Q值修正：在Q学习中，将不可行动作的Q值设置为一个非常低的值（比如负无穷），以确保在选取动作时，不可行的动作不会被选中。

采样和训练：在训练过程中，智能体需要根据修改后的概率分布来采样动作，并且在经验回放（experience replay）中，只使用那些合法的动作。
兼容性和库支持：一些强化学习库，如Stable Baselines或Ray's RLLib，已经内置了对动作屏蔽的支持。使用这些库时，你只需要按照它们的规定来设置动作掩码即可。

下面是一个简化的伪代码示例，(概率分布的方法）说明如何实现动作屏蔽：

# 假设有一个环境，它返回状态和动作掩码
state, action_mask = env.step(current_action)
# 策略网络输出动作概率，不包含掩码
policy_outputs = policy_network(state)
# 应用动作掩码
masked_outputs = policy_outputs * action_mask  # 不可行动作的概率设置为0
# 重新归一化概率
masked_outputs /= masked_outputs.sum()  # 确保概率总和为1
# 根据修改后的概率分布来采样动作
action = sample_from_distribution(masked_outputs)

在实现时，需要注意确保动作屏蔽逻辑的一致性和正确性，以避免智能体学习到错误的策略。此外，动作屏蔽可能会影响探索策略，因此需要适当调整探索机制，确保智能体能够充分探索可行的动作空间。

1 MASK的方法

Mask的核心就是在输出的动作或者值函数的向量上戴个“面具”，点乘一个{ 0 , 1 } \{0,1\}{0,1}或者{ − ∞ , 1 } \{-\infty, 1\}{−∞,1}的行向量，以规范化输出。如：
[ 1 , 2 , 3 ] ⋅ [ 1 , 1 , 0 ] = [ 1 , 2 , 0 ] [1, 2, 3] \cdot [1, 1, 0] = [1, 2, 0][1,2,3]⋅[1,1,0]=[1,2,0]
这样智能体选出的动作就可以进行简单的规范化。