【撕书系列DRL】CH2-动作空间设计

目录

动作空间常见类型

动作空间设计原则


动作空间常见类型

离散动作空间通常由有限数量的动作组成,一般包含所有特定任务中所有可用的控制指令。通常采用One-hot向量编码,每个编码位置对应一个动作,并且是完全互斥的关系。

连续动作空间大多数采用多维向量式动作编码,每个编码位置代表一个独立的控制参数,如速度、位置、力矩、电流等。

动作空间设计原则

完备性

动作空间能让agent在环境中充分探索到各种可能性,尤其保证最优解所在区域的良好可达性。

高效性

可以尝试将连续动作空间离散化,牺牲一部分精度换取高效。

合法性

任务是一系列规则描述的,而DRL其实是带约束条件的最优化问题。动作的选择需要遵守规则

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值