第二章 动作空间设计
- 在编码连读动作空间时,大多采用多维向量式动作编码 ,每个编码位置度代表了一个独立的控制参数。
- 每个参数事先根据实际情况定义合理的取值范围
- 利用线性变换将他们统一缩放至标准区间[-1,1]内,而通过策略网络的输出动作可以通过逆向变换转换为一组真是的控制参数
- 连续动作可以按照适当力度进行离散化,同时离散动作也可以以类似于连续动作的方式进行表征
- 2.3 动作空间的高效性
- 化整为零:用精度来换效率
- 就是把一个连续的动作换成是一个可以接受的离散的动作的集合,寻求效率和精度之间的最好的一个平衡点
- 有机组合
- 理想的动作空间应该由基础的、不可再分的“元动作”以及那些十分有用但是不容易掌握或者没必要掌握的宏动作共同组成。
- 化整为零:用精度来换效率
- 2.4.1非法动作屏蔽机制:
- 在离散动作空间中,常规做法是忽略特定状态下的所有非法动作,并将剩余合法动作的Q值或者策略响应重新归一化处理 ,然后再按照正常方式进行采样(训练阶段),直接输出最优动作(部署阶段)
- 在连续动作空间中,应该根据各个维度的合法取值区间,对策略输出做截断处理