摘 要:机器人足球仿真系统提供了实时对抗环境下研究多智能体协作问题的一个良好平台。本文基于仿真环境下的理论基础及模型,通过逐场次逐帧地测试与分析研究,设计出用于控制机器人协作队形的三角进攻算法,并对基于算法形成的进攻队形的决策形式和机制、角色形成与定制,以及行为分解与规划作了研究。经过对比分析,基于三角进攻算法的机器人控制策略在对射门机会的把握、队员间配合以及动作行为的执行精准度上获得了较为明显的改进。
1 引言
在人工智能技术逐步发展的历程中,对多智能体系统的研究一直是该领域的一个重要方向,并已成为一个热点问题。多智能体系统的研究包涵了智能体之间的相互协作及任务规划、体系结构设计及生长、自主学习与知识获取、认知建模与群体进化等一系列问题。这些问题中的大多数在机器人足球仿真比赛对抗实现中得到了集中的体现[1]。因而,机器人足球仿真比赛作为一项标准任务被广泛引入,以促进多智能体技术、智能机器人技术及其相关领域的研究与发展。在这其中,机器人足球仿真进攻算法的设计属于控制策略中的高层决策问题,主要是合理解决场上队员的协作与配合冲突[2]。为解决这些问题,就要从机器人对场地的认知开始,并能够通过周围态势信息的掌控及自学习,确定机器人自身的行为及动作,保障整体的进球目标得以顺利完成。
2 问题分析
机器人足球仿真平台提供了比赛所需的基本环境及消息通讯场景。平台通过感知接口向外提供的物理消息主要包含了机器人的运动状态,例如身份标识、速度大小(标量)、视场角度和基本动作已执行的次数等[3][4]。在机器人足球仿真比赛策略设计中,主要基于对物理消息的综合理解与整合分析,对队形控制算法的优化提出了更高的要求,在实现队形协作控制的同时,需要做到与平台时序的同步。
经过对目前在用的仿真平台进行测试分析,得知平台以1/50秒为一个仿真周期。为了保证与机器人的同步,仿真平台在进入新周期T时,将会给所有的机器人以乱序的方式发送同步信号,如下图1中的虚线箭头所示,用以向机器人表明仿真平台已经进入了一个新的周期。仿真平台结束同步信号的广播以后,一方面按照一定的规律发送机器人的物理集成消息,另一方面需要不断响应来自其他机器人的行动请求,并相应调节机器人的自身朝向、角度以及速度和位置等。在每个执行周期结束之前,平台还将根据当前态势下的执行结果和本周期的其他保持状态进行叠加,作为新的场上态势,进入下一周期T+1,如图1中的黑色填充矩形所示。据此,机器人在接收到新的同步信号后,随即进行新一周期的策略推断,并根据接收到的各组物理消息维护自身行为状态,图中的椭圆代表了自身状态的更新过程,结合状态的更新及新任务的规划,机器人将选择适当的动作进行调整,如图1中白色矩形所示,最后将本周期选择的动作指令反馈回仿真平台,并请求执行,点画线代表了这个请求。