机器人与目标匹配问题及解决虚拟动力学纳什平衡 Q-Learning

最新推荐文章于 2023-05-02 20:46:33 发布

DEC1223

最新推荐文章于 2023-05-02 20:46:33 发布

阅读量426

点赞数 1

文章标签：人工智能机器学习强化学习博弈论

本文链接：https://blog.csdn.net/weixin_42970036/article/details/120463143

版权

本文探讨了在多机器人火灾救援场景中，如何运用虚拟动力学求纳什平衡和Q-Learning方法解决目标匹配问题。通过建立环境模型和博弈模型，展示了机器人如何根据火势和自身能力选择最佳行动路径，以最大化灭火任务的收益。实验结果显示，这两种方法都能有效地协调机器人行动，实现高效救援。

摘要由CSDN通过智能技术生成

1. 问题描述

在世界各地，由于自然灾害或者各种突发事件等原因，灾难经常发生。例如在森林火灾救援的过程中，消防人员必须保证以最短时间以及在自身能力允许的情况下尽可能地扑灭所有的火，防止火势蔓延造成更大的损失。如今随着科技的进步，机器人的应用范围越来越广泛，如多机器人同样也可以使用于上述的救灾场景之中。
在这里插入图片描述

如上图所示，模拟了一个森林的实际环境场景，其中三角形标示该森林中意外起火的火灾点，每个火灾点的火势情况不一样，而蓝色圆形标示目前该森林中处于不同位置的可用于扑灭火灾的机器人，每个机器人的救援能力也有所差异。由图1可得，模拟的实际环境情况为：在红色框的森林区域范围内，有五个意外起火的火灾点，现在森林中有五台处于不同位置的灭火机器人。为完备智能体工作环境以及实际情况，进行以下假设：
（1）假设机器人只能观测到1千米以内的火灾情况；
（2）每个机器人扑灭火灾的概率与其距离火灾点的距离有关，在本问题中定义扑灭火灾概率为：
在这里插入图片描述
式中，i 表示机器人 i，j 表示火灾点 j；
（3）每个火灾点的火势有所不同，因此每个火灾点扑灭后的收益Vj有所不同。现在需要对各台机器人以及火灾点进行匹配以救援这次火灾，任务需要实现的总目标为：最大化本次灭火任务的收益，尽可能挽救火灾。

2. 环境模型

为了方便后续的操作，首先对机器人实际运行环境进行离散化处理，对实际的环境进行合适的分割及抽样，忽略环境中其他不影响结果的干扰环境信息，选取环境中的关键节点来构建环境模型。
如下图所示，为依据1中的所示的实际环境情况构建的模型。在火灾救援多机器人环境中，机器人之间需要通过协调合作以最大的收益完成任务。环境地图模型中的栅格通

最低0.47元/天解锁文章

DEC1223

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器人与目标匹配问题及解决虚拟动力学纳什平衡 Q-Learning

机器人与目标匹配问题及解决1. 问题描述2. 环境模型3. 博弈模型4. 虚拟动力学求纳什平衡5. Q-Learning 解决问题6. 仿真实验1. 问题描述在世界各地，由于自然灾害或者各种突发事件等原因，灾难经常发生。例如在森林火灾救援的过程中，消防人员必须保证以最短时间以及在自身能力允许的情况下尽可能地扑灭所有的火，防止火势蔓延造成更大的损失。如今随着科技的进步，机器人的应用范围越来越广泛，如多机器人同样也可以使用于上述的救灾场景之中。如上图所示，模拟了一个森林的实际环境场景，其中三角形
复制链接

扫一扫