UT2017学习笔记

1.域描述

与前几年相比,2017年RoboCup 3D模拟联赛的主要变化是取消了拥挤规则

以前,过多的球员挤在球周围会导致球员被罚站在边线上。拥挤规则的实施主要是为了减少机器人之间的碰撞次数,因为同时发生的多次碰撞会降低模拟器的速度,并可能导致其崩溃。

现有的触碰规则是,如果3名或3名以上的球员相互触碰,一名球员就会被带到边线,2016年增加了犯规,对撞到对手的球员进行惩罚,因此决定不再需要拥挤规则。

2.技术挑战

连续第四年有一个全面的技术挑战,包括三个不同的联赛挑战:自由挑战,传球和得分挑战,Gazebo跑步挑战。 对于每一次联赛挑战,一支参与挑战的球队被授予基于以下等式的整体积分:

2.1 自由挑战

UT的自由挑战提交介绍了团队的快速行走踢在第3节中讨论.此外,UT的自由挑战提交泄露了将踢腿运动的策略表示为神经网络的初步工作,并使用深度学习和信任区域策略优化算法学习更长的踢腿。

团队提供了他们创建的优化框架的详细信息,magmaOffenburg团队谈到了他们用来测试团队策略层的2D模拟器,AIUT3D团队为3D模拟联盟代理引入了一个运动编辑器。

2.2 传球和得分挑战

在传球和得分的过程中, 一支球队的四名球员试图在他们之间传球,这样每个球员至少接触一次球-然后在尽可能少的时间内进球。 在挑战开始时,球被放置在场地的中心,代理必须从至少三米的距离开始,沿着X轴。代理初始岗位不符合规则的,团队奖励85分。

挑战结束时,一个进球,球离开球场,或80秒已经过去。对于每一个不同的球员踢球,判断球自由移动至少2.5米后被踢,分数扣一分。若进球,则减分1分。如果进球是在球被所有四名球员踢后得分的,则得分是从审判开始到得分事件的时间(以秒为单位)。

挑战的目标是获得尽可能低的分数。

UT用于传球和得分挑战的起始位置和策略如图3所示。无论哪个代理最接近球,将球传递到距离目标最远的代理前面大约一米的位置,如图3中的黄色箭头所示。 一旦球在代理之间依次向前传递,并且最接近目标的代理接收球,该代理就会在目标中踢球,如图3中粉红色箭头所示。 当特工不是最接近球的特工时,他们就站在原地。

2.3 Gazebo 跑步挑战

RoboCup社区正在进行的工作是开发插件6用于 Gazebo 机器人模拟器以支持 RoboCup 3D 模拟联盟。因此,举办了一场挑战,机器人试图向前走尽可能快地在 Gazebo 模拟器中保持 20 秒而不摔倒。

UT Austin Villa 优化了快速步行参数用于 Gazebo 模拟器中团队的全向行走引擎 ,使用 CMA-ES 算法。步行引擎参数针300 代 CMA-ES,种群规模为150。Gazebo 跑步挑战赛结果见表 7。每支参赛队伍进行了 4 次跑步尝试,平均得分在他们的三个最佳尝试中前进的步行速度。

  1. 其它补充

基于代理任务的双足行走优化

* 目标任务和代理任务

  * 强化学习中有时会遇到执行采样的开销过大的情况,此时可以通过运行另一个任务来对目标任务进行优化,实际运行的任务称为代理任务

  * 本文介绍的方法在通过代理任务学习的过程中同时完成两个目标:一是对目标任务进行优化,二是使代理任务越来越能够反映目标任务

  * 本文中的目标任务是在Robocup3D比赛中行走(`SoccerGameplay`),代理任务是在一条特别设计的道路上行走(`ObstacleCourse`),要优化25个参数

* 具体任务介绍

  * `SoccerGameplay`: 和一个基准队伍踢一场比赛

    * 定义reward函数$reward_{SoccerGameplay}(goalsFor−goalsAgainst)∗ \frac{1}

      {2} FieldLength

      +avgBallXPosition$

  * `ObstacleCourse`: 一个机器人的行走训练

    * WAYPOINT: 行走到目标并计时

    * STOP:停止

    * $reward_{WAYPOINT}=d_{target}\frac{t_{total}}{t_{taken}}

       −Fall$

    * $reward_{STOP}=−d_{moved}−Fall$

    * Fall为5(摔倒)或0(没有摔倒)

* 优化算法

  * 每N次循环执行一次如下操作:

    * 调用generateNewBasisTasks()生成一批新的`ObstacleCourse`任务加入B中,使B数量加倍

    * 使用参数组集合P中每组参数跑一遍`SoccerGameplay`以及每一个`ObstacleCourse`任务

    * 调用rankBasisTasks()计算每个`ObstacleCourse`任务和`SoccerGameplay`任务的相似度(即二者对每组参数评价值的Spearman相关系数),淘汰掉相似度较低的一半

    * 使用`SoccerGameplay`任务的评价更新P中的参数组

  * 其余每次循环使用参数组集合P中每组参数跑一遍任务集B并更新参数组P

  * 参数组P的初始化和更新使用CMA-ES算法

* 结果

  * 加速了训练,但对`ObstacleCourse`的更新效果不大

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值