基于 robocup 机器人足球仿真2D的多主体动态不可测问题

1  相关背景

   1.1  智能 Agent

    Agent的概念最早可以追溯到1977年由Heiwitt提出的演员模型,在该模型中给出了一些“演员”——一一组具有知我包含、相互作用和并行执行的对象。以后的研究中又把Agent看成一个具有特别技能的个体。后来又提出软件Agent的概念,认为Agent是具有自主性和协作性的实体,它能够帮助用户完成一定的额任务。还有研究者认为Agent是驻留在某一环境下能够持续、自主发挥作用,满足任务/目标驱动性、社会性、主动性等特征的计算主体。

   1.2多Agent系统(MAS)

    MAS的研究历史最早可以追溯到80年代中期的Actors规划模型,而MAS的协作求解问题的能力超过单个的Agent是MAS产生的最直接原因,导致MAS研究逐渐兴起的其他演员还包括:与已有系统或软件的互操作,求解那些数据、能力和控制具有分布特性的问题以及提高系统的效率和鲁棒性等;与单个Agent相比,MAS具有以下特点:每个成员Agent仅拥有不完全的信息和问题求解能力(故其观点是有限的),不存在全局控制,数据是分散或分布的,计算过程是异步、并发或并行的。

    1.3 MAS与Robocup

     在第15届国际人工智能联合大会上,由Kitano,Veloso和Tambe等来自美、日、瑞典的9位国际著名或知名学者联合发表论文“The RoboCup synthetic agent challenge 97”系统阐述了机器人足球的研究意义、目标、阶段设想、近期主要内容和评价原则。概括的说,过去50年终人工智能研究的主要问题是“单主体静态可预测环境中的问题求解”,其标准问题是国际象棋人-机对抗赛;未来50年中,人工智能的主要问题是“多主体动态不可测环境中的问题求解”,其标准问题是足球的机-机对抗赛和人-机对抗赛。从科学研究的观点看,无论是现实世界中的智能机器人或机器人团队(如家用机器人和军用机器人团队),还是网络空间中的软件自主体(如用于网络计算和电子商务的各种自主软件以及他们组成的“联盟”),都可以抽象为具有自主性、社会性、反应性和能动性的“自主体”(agent).由这些自主体以及相关的人构成的多主体动态系统(multi-agent systems),是未来物理和信息世界的一个缩影。其基本问题是主体(包括人)之间的协调,可细分为自主体设计、多主体体系结构、自主体合作和通信、自动推理、规划、机器学习与知识获取、认识建模、系统生态和进化等一系列专题。值得注意的是,上述一系列问题中的大多数都在机器人足球中得到了集中的体现。在这个意义下,将机器人足球作为未来人工智能和机器人研究的标准问题是十分恰当的;这主要是由于机器人足球具有以下特点:

(1)典型性。如上所述,RoboCup机器人足球队的研制涉及当前人工智能研究的大多数主要热点,因而构成一个典型问题。

(2)可行性。多主体系统的绝大多数实际背景非常复杂,以至于研究人员在目前的条件下难以把握,无法兼顾具体细节分析与基本问题探索。而在机器人足球中则较易兼顾二者,易于深入。

(3)客观性。比赛提供了一种实验平台和评价各种理论与技术的客观方法,便于研究者的“自我观察”和相互交流

(4)综合性。在以往的研究中,各种技术通常被分别开发和观察,综合集成工作一般由面向最终用户的应用部门来完成,这种方式不利于相关技术在更高层次上的衔接和在更深层次上的创新。机器人足球是第一个深层的“综合平台”。

综上,因此在世界上,开展机器人研究是人工智能从基础理论走向实际应用的一个战略性步骤。

    1.4 多主体动态不可测问题定义

    多主体动态不可测是指多个主体在相互完全独立的条件下,通过协作完成指定的目标和任务。这是一种动态过程,需要考虑多个主体意识态度之间的交互和协作能力。而每一个主体的最基本特性包含反应、自主\自制、面向目标和社会,及其他应用情况下可以拥有的其他特性。这是一种多主体在合作中通过协同效应完成指定任务。采用基于对robocup机器人仿真2D多年的实践研究和发展,对多主体动态不可测问题进行部分深入探究。

2  多主体协商

   2.1 基于robocup机器人仿真2D的多主体协商

    多主体协商是MAS实现协同、协作、冲突消解和矛盾处理的关键环节,基于robocup机器人仿真2D,在多主体协商方面,主要包括协商算法和系统分析两个部分内容。协商算法用于描述Agent在协商过程中的行为,包括通信、决策、规划和知识库操作等。系统分析的任务是分析和评价Agent协商的行为和性能,回答协商过程中的求解质量、算法效率以及系统的公平性和死锁等问题。

   2.2 基于robocup机器人仿真2D的协商算法

    协商算法用于描述Agent在协商过程中的行为,包括通信、决策、规划和知识库操作等。比如在仿真2D比赛中,每个Agent会根据其不同的世界模型,选择不同的技术动作(Figure 1)。在个人技术决策的基础上,再通过多Agent相互协作,实现一个策略性目标。


Figure. 1

   2.2 基于robocup机器人仿真2D的系统分析

    仿真组比赛采用Soccer Server[1]作为一个标准比赛平台(Figure 2)。Soccer Server是一个允许竞争者使用支持UDP/IP的任务程序语言进行仿真足球比赛的系统,整个系统按照100毫秒的周转运转,比赛以Client/Server方式进行。Server,提供了一个虚拟的足球场地,并对比赛双方的全部队员和足球的移动进行仿真。Client,相当于球员的大脑,指挥球员的运动,每个Client控制一个球员。Server和Client之间的通信是通过UDP/IP协议进行的。通过这种方式,Server向Client发送有关的赛场信息(如视觉、听觉信息等),Client端通过对这些信息进行分析,产生相应的控制指令,并发送到Server,以控制相应的队员。要赢得一场足球比赛,单靠个人能力是不可能的,必须有全体队员的相互配合与协作;同样,要提高一个多主体系统的性能也需要各个主体之间的协调与配合。而这就需要研究者在这套平台上设计自己的球队,用以评价各种理论、算法及策略的可能性。


figure.2

例如在目标点价值评判:

    将带球目标点定义为最大价值点(Valuemax ) ,当 Agent 带球至此目标点后就会选择其他技术动作 (如传球、 射门) ; 而对于每个点价值 ( Value ) 的计算 ,  我们利用的是以下公式:

     Value =Value pos +Value pass

    Value pos 表示各个点的位置价值,即根据距对方球门距离远近(比如距离对方球门越近Value pos 越大) 、对方防守程度(防守越密集Value pos  越小)等情况计算;对于一个点的位置价值评判存在着诸多因素,具体的必要因素如表 (1) 所示。当然在实际中还存在一些其他的细小因素,但这些因素一般对位置价值的评判影响不大,可以在计算过程中不予考虑。


figure. 3

    Value pass 表示各个点的传球价值,即在把球带到此点后将球传给其他队友后得到的收益,传球收益在传球模块中予以评价。

    对于Value pos和Value pass 的具体计算利用的是基于价值的学习方法,可经过对球队的多次训练逐渐求得。与一般的学习算法一样,训练时间越长,对最大价值点的计算就越准确,带球效果也就越好。

    在实际比赛中,由于比赛是实时的,并且各周期的世界模型不同,因此最大价值点即带球目标点可能会出现抖动,也就是说,当前周期计算出的最大价值点与上周期(或之前)的最大价值点不同。而由于 turn 命令和 dash 命令不能同时发送给 Server ,而且 Agent 会受惯性因素影响,在改变前进方向时需要额外花费一些时间。为了解决这个问题,当计算出本周期最大价值点时与上周期(之前)最大价值点不同时,将上周期(之前)计算出的最大价值点的价值乘以一个大于 1 的系数,以确保最大价值点尽可能的稳定,使 Agent 尽量朝它原本前进的方向带球前进。

(了解更多详情,可以和我交流,大家一起学习)
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值