深度强化学习落地指南学习笔记-第二章

第二章 动作空间设计

  1. 在编码连读动作空间时,大多采用多维向量式动作编码 ,每个编码位置度代表了一个独立的控制参数。
    • 每个参数事先根据实际情况定义合理的取值范围
    • 利用线性变换将他们统一缩放至标准区间[-1,1]内,而通过策略网络的输出动作可以通过逆向变换转换为一组真是的控制参数
  2. 连续动作可以按照适当力度进行离散化,同时离散动作也可以以类似于连续动作的方式进行表征
  3. 2.3 动作空间的高效性
    • 化整为零:用精度来换效率
      • 就是把一个连续的动作换成是一个可以接受的离散的动作的集合,寻求效率和精度之间的最好的一个平衡点
    • 有机组合
      • 理想的动作空间应该由基础的、不可再分的“元动作”以及那些十分有用但是不容易掌握或者没必要掌握的宏动作共同组成。
  4. 2.4.1非法动作屏蔽机制:
    • 在离散动作空间中,常规做法是忽略特定状态下的所有非法动作,并将剩余合法动作的Q值或者策略响应重新归一化处理 ,然后再按照正常方式进行采样(训练阶段),直接输出最优动作(部署阶段)
    • 在连续动作空间中,应该根据各个维度的合法取值区间,对策略输出做截断处理
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值