深度强化学习落地方法论(4)——动作空间篇

前言

在将DRL应用于实际项目时,可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单,而是agent的控制方式往往早就定死了,留给我们发挥的空间很小,就好像我们无法决定DOTA里允许多少种操作,也无法改变一台机器人的关节数量和各自的角度范围,Gym用户甚至从来都不用为这个问题操心,action空间有多少维,连续还是离散,各种domain早就都定义好了,我们根据这些性质判断任务的难度,仅此而已。选择困难症患者表示松了一口气有木有~~~当然咯,如果运气足够好,agent提供了多种控制选项并允许我们自由选择时,一定要珍惜这种机会。

对动作空间的三个要求

完备性

动作空间首先要提供实现预期目标的可能性,避免在任务解空间中出现无法触及的“状态盲区”,尤其是要保证高性能区域的充分可达性。这一方面要求动作空间要具有功能完备性,比如一辆汽车必须具备加减速、转弯和刹车等基本功能才可以实现导航和防撞任务;另一方面还要求动作空间具有时效完备性,即使一辆汽车具备了正常行驶所需的全部功能,但如果这些功能的响应速度过慢,或者决策周期过长,都会严重影响高速行驶下的突发状况应对能力,因此动作的作用频率必须满足特定任务所需的最低要求。

高效性

动作空间应该尽可能简单高效,从而有效降低训练难度和提升算法性能。一方面,可以将连续动作空间化整为零,在满足基本控制精度的前提下将其转化为离散动作空间,这样可以显著压缩解空间维度,提高探索效率;另一方面,可以根据实际情况,将一些基本动作进行有机组合构

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值