近期查找UAV在未知环境中的协同探索,很多文章中提出了Voronoi图的方法,因此查找了一篇关于Voronoi的文章2020-IEEE Transactions on Vehicular Technology-Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning,下面是我对本文的一些内容记录,以便后续学习
目录
一、摘要
本文提出了一种新的多移动robots协同探索策略
设计了一种包含高层决策层和低层目标跟踪层的分层控制体系结构
提出的合作勘探方法使用动态Voronoi分区开发→最大限度地减少重复的勘探区域
针对未知环境中的突发障碍,提出了一种基于深度强化学习的综合避撞算法
二、主要内容
深度强化学习技术需要全面了解环境(例如,障碍物的大小和位置)和机器人平台(例如,机器人的精确数学模型),在提前获得较少工作区域信息的情况下,有可能实现安全导航
本文旨在为分散的协同多robots设计一种有效的自主探索策略,同时避免突然观察到的障碍
1. Contributions
1)开发了一种基于Voronoi的探索策略,以有效地协调多robots团队对未知区域的探索。基于Voronoi动态分区,为每个robot分配不同的目标位置,以避免重复探测区域
2)提出了一种基于深度学习的避障算法来引导robots到达目标。该方法使控制策略能够从人类演示数据中学习
3)通过轮式移动robots的实际实验验证了所提出的合作探索策略的可能性
2. 技术背景
A. 通信网络
加权无线信息图→节点,边,相关邻接矩阵
信息流动,两个节点之间的距离
如果每对不同的节点之间都有一条路径,则无向图是连通的
图中两个节点之间的最短路径距离是连接它们的最短路径上所有边的权值之和
B. Voronoi分区
Voronoi分区在可用的移动robots平台之间划分区域,其中每个Voronoi单元的质心被取为单个移动robot的位置
使用Voronoi分区,可以根据robots团队成员的当前位置动态划分待映射的区域
通过构造,Voronoi分区可以通过robots之间的通信以去中心化的方式实现
使用动态Voronoi分区,每个robot只需知道其邻居的位置即可计算其分区
由于Voronoi分区是动态生成的,因此团队可以根据新的邻居(不包含失败的robot)调整Voronoi分区配置
C. 避免碰撞问题的表述
自主智能体的避碰问题是在每个自主智能体在欧式平面上移动的上下文中定义的
3. 协同探索策略
A. 分层控制结构
提出了一种网络化robot放入两层控制体系结构,包括高层决策层和低层目标跟踪层
在第一层中,基于Voronoi分区和同步映射选择所需的下一个边界点
这些信息被发送到第二层进行跟踪,并使用深度强化学习神经网络训练robot到达所需位置的位置,同时避免潜在的障碍
B. 探索robots的协同算法
第一层提出的合作探测策略
为了标记探测区域,多车系统中的每个robot在探测环境时都部署了信息节点
这些部署的信息节点形成了一个信息网络,允许机器人以分散的方式共享信息
信息节点可以是真是的传感器设备,也可以是每个机器人同步映射中的虚拟目标
一旦将信息节点部署到某一位置,它将在被感知区域与无传感器覆盖的开放区域之间的边界上生成一些新的边界点
每个robot均可以共享该网络并且对信息图进行更新
基于相邻的robot的位置,生成一个Voronoi分区,只考虑自身Voronoi分区中的边界点进行下一个动作→有效地移除探索者所选择的不需要的边界点
公式:分配给robot 放入前沿节点
的效用函数
→满足
的标量,决定搜索的方式:深度or广度
→
与前沿节点
之间的距离
→前沿节点
与
初始位置之间的距离
C. 算法伪代码分析
1. 如果Robot 在以半径为
的圆内发现信息节点→
在当前位置放置一个信息节点
2. 如果选择的前沿节点为空
→使用最小定义边界点的效用函数函数搜索存在于自己Voronoi分区内的下一个前沿节点;
→将新搜索到的前沿节点设置为;
→开始沿着
中的最短路径移动到
3. 如果到达
→
在该位置放置一个信息节点
否则继续移动直至到达
4. 上诉3步骤不断循环,直至每个信息节点都没有边界点→没有发现新的边界点
注:→作为信息图
在
时刻的子图,由
可以观察到的节点集生成
前沿节点并不是信息节点,信息节点提前部署,前沿节点为信息节点定义中的新的边界点
该算法基于Voronoi分区寻找前沿节点,并不断更新前沿节点的集合,将所有处于Voronoi分区内的节点均加入到信息节点中
三、总结
该文章本人仅阅读了Voronoi分区部分,对于这个部分有些问题
首先是信息节点的部署→部署信息节点的标准
其次是针对Voronoi分区→通过算法类似于对已经分区,但是作者要实现的是动态分区,动态体现在什么地方,作者阐述为robot只要知道邻居的位置既可以进行动态分区,但是这种分区的基准是什么
最后是前沿节点→是否可以理解为信息节点为那个被选择的前沿节点,但是在算法理解中步骤2作者阐述的是会将新探索到的节点加入到前沿节点中,那么可以保证该结点就是已部署的信息节点吗
该文章中作者所写的总结:大体与摘要相同,除了几个点
1. 设计了一个兼顾路径代价和目标距离的效用函数来确定目标的下一个边界点,从而根据不同的额场景选择深度优先和广度优先模式
2. 避障算法→DDPG+PER
最后作者提出了仿真结果及算法的有效性
该文章为个人学习笔记,部分内容不全,对该文章感兴趣的读者请移步Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning | IEEE Journals & Magazine | IEEE Xplore
如有侵权,联系立删