混合动作空间
参考文献
与离散动作空间或连续动作空间不同,拥有混合动作空间的智能体在每一步执行动作时都需要选择一个离散动作以及该离散动作对应的一个或多个连续性动作参数的值, 举个例子, 比如在实际应用场景机器人足球世界杯中,一个足球机器人可以选择带球(离散)到某个位置(连续坐标)或者用力(连续)将球踢(离散)到某个位置等混合动作;在一些大型游戏中,玩家控制的每个角色在选择释放哪个技能(离散)后还需选择技能释放的位置(连续坐标)。
Q-mix
- “≡”是恒等号或同余号。21(mod 5)≡1(mod 5)