rescue基础

    近年来多发的自然灾害如地震、火灾,人为祸害如恐怖活动、武力冲突和放射性物质 等带来的危害,时刻威胁着人们的安全,也引起了世界范围内广泛的关注LlJ。鉴于此, RoboCup机器人世界杯竞赛于2001年增加了机器人救援的专项比赛RoboCup Rescue[21131[4儿纠,当前包括仿真组和实物机器人组两类赛事。其中,RoboCup Rescue Agent Simulation(RoboCup Rescue智能体仿真)是隶属于RoboCup Rescue的仿真项目,与其它项 目相比,该项目针对突发灾难环境下应急决策的相关应用,如建设应急决策支持系统、应急物流系统、跨区域协同防灾减灾系统等,实用性更强。 RoboCup Rescue仿真系统(RoboCup Rescue Simulation System,RCRSS)作为RoboCup Rescue Agent仿真竞赛的统一平台,为灾难环境下救援理论和技术提供了标准的试验研究平 台。该仿真系统用计算机模拟真实的城市灾难环境,如模拟地震发生时建筑物的倒塌;道路等公共交通设施的毁坏;通信设施和信息传播的中断;市民被埋在倒塌的房屋下以及地 震引起的大火的蔓延等。为了减小灾难带来的损失,参赛队伍需要开发一支强有力的救援 Agent队伍,在仿真系统提供的灾难场景下进行有效的救援工作,并且尽快地营救受伤的人 员,抢救人们的生命财产,把灾难的损失降到最低限度。这个项目在不同范围的各种可能的发展与应用,将有助于我们构建安全和谐的社会。 RoboCup Rescue Agent Simulation比赛在标准软件平台上进行,平台的设计充分体现了控制、通讯、传感和资源等方面的现实约束,使仿真救援程序易于转化为硬件救援系统的 控制软件。随着每年比赛的逐步推进,仿真系统中不断添入新的特性,仿真环境也更加真实,救援的难度越来越大。该仿真平台的主要特点有: (1)动态实时性:要求每个Agent在仿真周期内完成全部计算并将要执行的命令发送给Server,否则将会失去一次执行动作的机会; (2)环境不确定性:由于仿真系统中噪声的影响,每个Agent不能准确地获知环境信 息,只能获取带有噪声的信息,这些信息的精度影响着行为决策过程; (3)协调与协作性:为了减少损失、降低伤亡这一共同的目标,Agent需要使用有效的方法进行协调与协作,并且需要解决局部目标与全局目标、个人目标与系统目标之间冲 突的问题。 (4)通讯受限性:系统不允许Agent之间直接进行信息交换,全部通讯必须经过信道 才能到达Agent,而且信道容量与消息数量等均受到限制。

RoboCup Rescue仿真系统涉及大量非对抗环境下的Agent,为了使得Agent在复杂动态 的环境中合作地完成特定目标,Agent的行为决策需要基于任务分配、协作与协调、不确定信息处理等具体问题的研究。

RoboCup Rescue智能体仿真系统

RoboCup Rescue智能体仿真系统的组成及各个模块

RoboCup Rescue Simulation System(RCRSS)是一种仿真大范围城市灾难的多Agent 系统,其运行环境是国际RoboCup委员会提供的标准Server。RCRSS Server采用标准化的 模块框架,它包括一个Kernel,若干通过TCP网络连接的子仿真器模块和由各个队伍自主 开发、连接到Server参与具体比赛的Agent,

2.2.1.1 Kernel Kernel(内核)控制着系统仿真时钟和整个救援仿真过程,负责处理不同模块之间的信 息交互,因此可以称之为整个仿真系统的“核心"。

2.2.1.2 GIS GIS(地理信息系统)提供灾难现场的初始化环境信息,主要包括初始化的道路、房屋 以及伤员和其他Agent的位置。GIS的另一个作用是记录仿真日志(Simulation Log),便 于救援仿真过程的离线分析。

2.2.1.3  Simulator Simulator(子仿真器)主要是针对环境中某个相对独立的灾难现象的仿真。如Blockade Simulator负责仿真地震产生的道路受阻、Fire Simulator负责仿真火势的蔓延、  Misc  Simulator 负责仿真救护Agent的营救效果、Collapse Simulator负责仿真地震产生的房屋倒塌、TrafficSimulator负责仿真交通状况。

2.2.1.4  Viewer Viewer(显示器)的作用就是可视化整个救援过程。Viewer可以显示出灾难现场的整 体情况,包括房屋道路状况和各种Agent的活动,如具体的灭火、清障和救人过程等。 2.2.1.5 Agents  Robo Cup Rescue仿真系统作为典型的多Agent系统,有两大类Agent:在环境中可四处 移动执行任务的Agent和无法移动的中心Agent。移动Agent包括救护Agent(Ambulance Team Agent)、消防Agent(Fire Brigade Agent)和警察Agent(PoliceForce Agent);中心 Agent包括救护中心Agent(AmbulanceCenter Agent)、消防中心Agent(Fire Station Agent) 和警察局Agent(Police  Office agent),

RCRSS中,Agent控制环境中的实体对象,并根据自身的感知信息和与其它Agent的 信息交互,不断地加强对周围环境的认知,做出动作决策,向内核提交动作命令来执行既定动作,完成任务。不同类型的Agent有不同的认知和动作能力,各种Agent对应的能力如表2.1所示,其中Sense动作负责感知,Hear、Say、Tell动作负责通信,Move动作负责 移动,Rescue、Load、Unload动作负责营救伤员,Clear动作负责清障,Extinguish动作负 责灭火。

Agents的行为动作

Agent Typecapabilities

Civilian             SenseHearSayMove

 

Ambulance Team     SenseHearSayTellMoveRescueLoadUnload

 

Fire Brigade         SenseHearSayTellMoveExtinguish

 

Police Force         SenseHearSayTellMoveClear

  

Ambulance Center   SenseHearSayTell

 

Fire Station         SenseHearSayTell

 

Police Office        SenseHearSayTell

由Agent的概念和特性可知,Agent一般具有自治能力、反应能力、能动能力、学习和 适应能力以及推理能力等。其中,自治能力是指Agent能够在没有外界干预的情况下自动 操作,这就意味着Agent可以根据自身内部结构自主地做出反应而不受人为的控制;反应能力表明Agent能够感知环境并对环境的变化做出反应,也就是说它的内部结构中包括感 知器和动作执行器;能动能力则表明Agent的行为具有一定的目的性,也就是说它的内部 结构中包含保存与查找信息的数据库(世界模型);学习和适应能力表明Agent可以与其 他的Agent进行交互,也就是说它的内部结构应包含有通信模块和通信接13。据此可知Agent 的基本结构主要包括感知器和动作执行器、推理机、内部信息数据库(世晁模型)和通信 模块




等,如图2.3所示,这样在各组成模块的相互作用下,Agent便会表现出特定的能力。

Agent感知器的作用是使Agent具有理解目标,掌握外界情况,并做出决策以适应外界 环境变化的能力。在现有的RCRSS中,Server为了控制仿真过程,所掌握的灾难环境信 息是完全且真实的,而Agent从Server获取的信息则是带有噪声的。比如,救护Agent看 到的伤员HP有±500的误差;此外, Agent的感知也是受限的: Agent能够看到lO米内 的实体对象、听到30米内Agent发出的声音,感知器模型具体如图2-4所示,假设Agent 位于B,大圆表示了其听力范围(AL),小圆表示了其视力范围(VL)。

此外,当前RCRSS中对Agent之间的通信限制如下:每个周期、每个Agent能发送和 接收的最大消息数均为4(中心Agent能接收的消息数为该中心下辖Agent数的2倍);每 条消息最长256字节,且消息的接收存在至少一个周期的延时。对于喊话方式(Say)通信, 每个周期每个Agent能收到的最大消息数为10。喊话通信下,消息会在当前周期到达可接收的Agent,不存在消息延时,更为详细的介绍见4.3节。Agent信息感知和通信的受限性,制约着救护Agent对外界信息的获取,也因此制约着救护Agent的行为决策过程。

2.2.2 RCRSS的初始化及仿真过程

RCRSS仿真比赛共300周期,每个仿真周期模拟了现实世界中的一分钟。300周期中 第一和第二周期完成仿真的初始化,从第三周期开始为正常仿真运行阶段。 2.2.2.1 RCRSS的初始化 仿真正式开始前,RCRSS各组件初始化方式如下:仿真的第一周期,子仿真器模拟房屋倒塌;第二周期子仿真器模拟道路受阻、人员伤亡、房屋起火。RCRSS仿真的初始化过 程如图2.5所示。

 

图2-5RCRSS的初始化

2.2.2.2RCRSS仿真流程

完成初始化后,从第三周期起Agent开始行为决策过程,并通过执行任务完成既定目标。不同的Agent执行不同的动作,完成不同的任务,在每一个仿真周期内每个模块之间 的相互联系如图2-6所示。

对应于图2-6,仿真过程各步骤时序图如图2-7所示,具体如下:

1)每个仿真周期的开始,内核将Agent所能接受到的信息发送给Agent,Agent所能接收到的信息包括Agent自身的感知信息和Agent之间的交互信息。

 2)每个Agent根据收到的信息进行决策,确定该周期需执行的动作命令,然后将该动作命令发送给内核。

3)内核把每个Agent提交的动作命令转发给所有的子仿真器。有的动作命令会被过滤 掉,例如,某个死亡Agent所提交的动作命令就会被丢弃。

 ’ 4)子仿真器根据内部的状态和从内核接收到的命令仿真各自负责的相对独立模块的变化过程,然后将仿真结果反馈给内核。

5)内核整合子仿真器反馈的状态信息,并将整合结果发送给显示器和子仿真器。然后内核会把仿真周期向前推进,并以准备下一周期的仿真。

6)显示器显示从内核接收到的更新信息。

2.2.3仿真灾难环境的描述

在面向对象程序开发中,对象是指人们要进行研究的任何事物,从最简单的整数到复 杂的灾难环境等均可看作对象,它不仅能表示具体的事物,还能表示抽象的规则、计划或事件。对象具有状态,一个对象用数据值来描述它的状态。对象还有操作,用于改变对象 的状态,对象及其操作就是对象的行为。对象实现了数据和操作的结合,使数据和操作封装于对象的统一体中。具有相同或相似性质的对象的抽象就是类。类具有属性,它是对象 的状态的抽象,用数据结构来描述类的属性。Kernel把灾难空间抽象为一个众多对象(如房屋、道路、Agent)的集合,为了便于对灾难环境仿真,Kernel对不同的对象定义了不同的数据结构,对象之间的关系如图2.8所示。 RCRSS中这种面向对象的数据结构便于代码的设计与开发。每个对象有诸如位置和形状的属性,并由一个独一无二的ID来识别,例如仿真环境中伤员的类图如图2-9所示,其基本属性包括伤员的ID、位置、健康情况(HP)、伤势情况(Damage)、被埋程度(Buriedness) 等,其中,初始化时HP=10000,每个仿真周期,HP以单位Damage速率下降,这两者之 间的关系为:爿屹删2爿‰一忱聊噼”删;Buriedness表征了单位救护Agent营救该伤员 所需要的时间。救护Agent的行为决策就是基于伤员的这些基本属性进行的,当HP降为零 时,则表明该伤员已经死亡。

 

 

2.2.4救护智能体

从表2—1对应的救护Agent能力可以看出,救护Agent除了具有最基本的感知、听、说 这些通信能力外,还具有移动能力和救人能力。救护Agent通过对MOVE、RESUCE、LOAD 和UNLOAD命令的综合运用来执行救人动作,在确定营救目标后,救护Agent向Server 提交预期动作命令,完成营救行为,完整的营救动作执行一般过程是MOVE->RESUCE-> LOAD--)MOVE->UNLOAD,救护动作的对象包括伤员和受伤的其他Agent。救护Agent 具有伤员的所有属性,在火中也会受到伤害,仿真初期亦会被埋到废墟下。仿真初期被埋在废墟下的救护Agent具有比伤员高的营救优先级,在火中受到伤害的救护Agent需要尽快返回避难所进行自我救治。 行为决策中,救护Agent通过自身感知获取的信息主要包括道路信息、房屋信息、伤 员信息和其他Agent信息等。仿真中,Server发送给Agent的感知信息是变化了的信息,比 如,对于道路信息,只有属性block会发生变化,因此Server发送给救护Agent只是道路的 block信息,当然还需要发送道路的唯一身份标识符ID来识别是哪条道路的属性发生变化,如表2.2所示;房屋只有属性fieryness会发生变化,因此Server发送给救护Agent只是房 屋的fieryness信息,当然也要发送房屋的ID来识别是哪座房屋的属性发生变化,如表2.3 所示;同理Server发送给救护Agent的伤员信息如表2.4所示,需要注意的是发送给救护 Agent的其他Agent信息与伤员信息相同。

救护Agent需要完成的任务主要是营救环境中的伤员,即在感知通信受限等系统约束条件下,若干救护Agent如何在动态、不确定环境中按照某种救援策略营救伤员,使得在 标准评价准则下得分最高,伤亡最少。RCRSS中救护Agent、消防Agent和警察Agent的 任务执行过程并不相互独立,而是存在不同程度耦合关系,如图2.10所示。每个救护Agent 任务完成还与其他Agent完成任务的先后顺序和任务花费的时间长短有关,与此同时,在营救伤员过程中,有的伤员需要单个救护Agent营救,有的需要多个救护Agent合作地营救,有的伤员则需要在警察Agent协助下才能完成营救。RCRSS中制约救护Agent行为决 策诸多约束的存在,对救护Agent提出了更高要求,救护Agent需要具有在动态、不确定 环境下对有限资源快速调度及其优化的能力,并且所建模型须在各种突发状况下保证一定 的响应速度与效应。

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值