Non-communicative multi-robot coordination in dynamic (三)

 

//8.13-2007

//翻译:朱宇

前5个规则用于是active球员的.规则p1,表明扮演截球者的角色用来截断球的.作为一个传球者,有多个选择.p2体现了一个active 的,当没有对方球员在轨道上时候,给队友j的dir方向上的传球,并且接球的队员将在dir的方向上移动以便截球.作用于全局的payoff的值利用u(j,dir)返回,并且取决于接球队员j接球的位置(越接近对方球门越好).接下去3个规则是提供给active球员个别命令: dirbbling(我们仅仅允许前锋带球),clearing ball,射门.规则p6应用于receiver正好移动到传球者将球传到的位置.用相同的原理,我们将设计出更加高级的方案.例如,规则p7表明,第二个receiver能够移动到第一个receiver接到球后,立即传球后,球到达的位置.规则p8要求receiver移动到事先约定的策略上的位置,这个动作仅仅在队员于其他队员失去配合时候执行,因为它只有一个小的全局的营利的值(since it has only a small global payoff value).最后,规则p9包含一个单独的给passive球员的命令,通常移动到它的策略位置.
当九个基本的规则举例后,规则的总数等于204.我们举例利用调和(coordination),清楚地可以罗列出一个完整球队策略的小的规则集合.而且,这些把预先的知识来解决问题的规则很容易被识别出.另外一个优势是,这些规则柔韧性很强:存在的规则可以被直接添加和消除.这使得在和不同对手对抗时候,改变球队的策略变成可能.
下面我们将研究怎样把上面的那些规则应用于实践.上面这些规则包含了在状态变量中的许多context-dependencies.在Fig.5中,我们已经通过给队员分配角色来简化逻辑图,如果我们现在进一步以特定的状态变量为条件,我们将得到Fig.6中所描述的图,它与下面的有价值的规则相联系(我们简单地假设,只有状态变量 非isPassBlocked(1,2,s)和 非isPassBlocked(2,3,nw)是正确的)
A1: p2(passer) ; a1=passTo(2,s)^
   a2=moveTo(s):6
    p3(passer) ; a1=dribble(n):2
    p4(passer) ; a1=clearBall:0.1
A2: p8(receiver); a2=moveToStratPos:1
A3: p7(receiver); a1=passTo(2,dir)^
   a2=moveTo(dir)^
   a3=moveTo(nw):5  任意方向dir属于 D
    p8(receiver); a3=moveToStratPos:1
现在展示了这些变量消除算法.每个队员都可以消除Fig.6. Fig.3的逻辑图基于状态变量. 传球者(agent 1)决定把球传给第一个接球者(agent 2),当第二个接球者跑到一个好的位置用来等待第一个接球者把球传过来.....(怀疑丢失),

    p10(passer) ; a2=moveTo(s)^
   a3=moveTo(nw):11
    p11(passer) ; a2=moveTo(s)^
   a3=非moveTo(nw):6
    p12(passer) ; a2=非moveTo(s):2


为了测试我们的例子,我们用了这个策略和其他的队伍(在传球时候,没有用任何协调策略)打了一场.后面的例子删除了规则p6和p7,并且从p2中删除了条件a(j)=moveTo(dir),其目的是不要接球者能够预测传球.现在,在一个没有协调图的队中,队友只有在观察到球的速度发生变化时候(一个人传球)才能移动到截球地点,并且推断他是最快的到球的队员.在球改变速度之前,他不能推断出他将能够去接球,也不能够于传球队员协调.而且,我们也和自己的benchmark版本的队伍进行了比赛,在这个队伍里, active球员将能截断球并且立即把球以一个最大的速度踢到对方球门的一个随机的角度.这个踢球和截球其他两队都一样,而第三个球队只是和他们的高层策略不同.
由于许多的因素影响着队伍的全面表现,用单一的值来测量协调的作用变得很困难.因此,我们统计工具(Statistics Proxy Server tool)来统计结果....(统计的结果就不翻译了,以后再说,文档P20,P21,P22).

 

 

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值