Primal代码梳理01——mapf_gym.py

最新推荐文章于 2024-07-06 21:03:15 发布

Hibiscus_soda

最新推荐文章于 2024-07-06 21:03:15 发布

阅读量842

点赞数 14

文章标签：深度学习 python

本文链接：https://blog.csdn.net/weixin_43188143/article/details/136764589

版权

mapf_gym.py文件的代码实现了基于OpenAI Gym接口的、用于多智能体路径规划的环境（网格世界）。
代码包含了用于创建环境、执行动作和渲染状态的类和方法。

1 常量值

定义REWARD，分别是动作成本（ACTION_COST=-0.3）、静止成本（IDLE_COST=-.5）、到达目标时的奖励（GOAL_REWARD = 0.0）、碰撞的成本（COLLISION_REWARD = -2）、完成任务的奖励（FINISH_REWARD = 20.）和阻塞成本（BLOCKING_COST = -1.）。
opposite_actions 字典定义每个动作的相反动作。
JOINT变量定义了在评估智能体的奖励的时候是否考虑邻居智能体。如果设置为True，则智能体在评估奖励时会考虑其他邻居智能体的奖励。当前为False。
dirDict字典定义了每个动作代码对应的方向，其中键是动作代码，值是方向的二元组（x,y）。例如，动作0对应方向(0,0)（静止，无移动），动作1对应方向(0,1)（向上移动）。
actionDict字典是dirDict的逆字典，根据方向找到对应的动作代码。

2 State类

State类是多智能体系统的状态。
实现方式是使用两个2d的numpy数组。
第一个称为“state”，是地图状态。对于地图上的任意位置，该位置是静态障碍物时值为-1，位置是空的时值为0，位置上有智能体时为正整数（该智能体的id）。
第二个称为“goal”，这个数组记录智能体的目标位置。对于地图上的任意位置，该位置是某个智能体的目标位置时，该位置的值为正整数（该智能体的id）。

2.1 构造函数

__init__方法是类的构造函数。
它接收二维数组初始世界状态 world0、二维数组智能体目标 goals、是否考虑对角线移动的布尔值 diagonal 和智能体的数量 num_agents。

2.2 scanForAgents 方法

扫描初始世界状态和目标状态，以确定智能体的起始位置和目标位置。它返回包含智能体当前位置、之前的位置和目标位置的三个列表。

2.3 getPos、getPastPos 和 getGoal 方法

分别返回给定ID的智能体的当前位置、过去的位置和目标位置。

2.4 diagonalCollision方法

diagonalCollision方法检测在一个给定的状态下，移动到新位置的代理是否会与其他任何代理发生对角线冲突。
接收两个参数，分别是agent_id，待检查冲突的代理的ID；和newPos，代理尝试移动到的坐标。
如果发生冲突，它返回True；否则返回False。

2.5 moveAgent 方法

尝试移动智能体并返回状态代码。
moveAgent方法考虑了各种移动规则，包括是否出界、是否与障碍物或其他智能体发生碰撞，以及是否达到目标。
接收两个参数。第一个是direction，一个包含两个元素的元组(dx, dy)，代表想要移动的方向。另一个是agent_id，想要移动的代理的ID。

2.6 act方法

尝试执行一个动作，并返回动作是否被执行以及执行结果的状态码。
状态码说明如下。
2: action executed and left goal
1: action executed and reached goal (or stayed on)
0: action executed
-1: out of bounds
-2: collision with wall
-3: collision with robot