深度强化学习落地方法论（4）——动作空间篇

最新推荐文章于 2024-06-22 09:40:16 发布

wyjjyn

最新推荐文章于 2024-06-22 09:40:16 发布

阅读量5.2k

点赞数 5

分类专栏：深度强化学习落地方法论文章标签：人工智能深度强化学习 AI落地

本文链接：https://blog.csdn.net/s3387224/article/details/103221987

版权

前言

在将DRL应用于实际项目时，可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单，而是agent的控制方式往往早就定死了，留给我们发挥的空间很小，就好像我们无法决定DOTA里允许多少种操作，也无法改变一台机器人的关节数量和各自的角度范围，Gym用户甚至从来都不用为这个问题操心，action空间有多少维，连续还是离散，各种domain早就都定义好了，我们根据这些性质判断任务的难度，仅此而已。选择困难症患者表示松了一口气有木有~~~当然咯，如果运气足够好，agent提供了多种控制选项并允许我们自由选择时，一定要珍惜这种机会。

对动作空间的三个要求

完备性

动作空间首先要提供实现预期目标的可能性，避免在任务解空间中出现无法触及的“状态盲区”，尤其是要保证高性能区域的充分可达性。这一方面要求动作空间要具有功能完备性，比如一辆汽车必须具备加减速、转弯和刹车等基本功能才可以实现导航和防撞任务；另一方面还要求动作空间具有时效完备性，即使一辆汽车具备了正常行驶所需的全部功能，但如果这些功能的响应速度过慢，或者决策周期过长，都会严重影响高速行驶下的突发状况应对能力，因此动作的作用频率必须满足特定任务所需的最低要求。

高效性

动作空间应该尽可能简单高效，从而有效降低训练难度和提升算法性能。一方面，可以将连续动作空间化整为零，在满足基本控制精度的前提下将其转化为离散动作空间，这样可以显著压缩解空间维度，提高探索效率；另一方面，可以根据实际情况，将一些基本动作进行有机组合构

最低0.47元/天解锁文章

wyjjyn

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
9
评论
深度强化学习落地方法论（4）——动作空间篇

在将DRL应用于实际项目时，可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单，而是agent的控制方式往往早就定死了，留给我们发挥的空间很小。我们无法决定DOTA里允许多少种操作，也无法改变一台机器人的关节数量和各自的角度范围，Gym用户甚至从来没为这个问题操过心，action空间有几维，连续还是离散，各种domain早就定义好了，我们根据这些性质判断任务的难度，仅此而已。当然如果你...
复制链接

扫一扫