混合动作空间|揭秘创造人工智能的黑魔法(3)

我们将从本篇博客开始,揭秘学术界和工业界解决混合动作空间的种种黑魔法。本篇将介绍,基于Q函数的强化学习混合动作空间算法。
摘要由CSDN通过智能技术生成

在前两篇博客中,我们介绍了深度强化学习的动作空间定义和常见的预处理方法

混合动作空间 | 创造人工智能的黑魔法(1)_面向连续-离散混合决策的游戏ai智能体强化学习方法_OpenDILab开源决策智能平台的博客-CSDN博客

混合动作空间|揭秘创造人工智能的黑魔法(2)_OpenDILab开源决策智能平台的博客-CSDN博客

过去的强化学习研究大部分都关注离散动作和连续动作问题,但由于混合动作空间在诸多真实世界问题例如游戏AI、自动驾驶等领域有着广泛应用,近些年也涌现出一系列解决混合动作空间问题的方法。

因此我们将从本篇博客开始,揭秘学术界和工业界解决混合动作空间的种种黑魔法。

本篇将介绍,基于Q函数的强化学习混合动作空间算法。

关于Parametrized Action Space


首先我们来回顾一下 Parametrized Action Space 的定义。

Parameterized Action Space 的概念最早在这篇15年的paper “Deep reinforcement learning in parameterized action space” 中被提出,其核心构成如下:

paper 链接:https://arxiv.org/abs/1511.04143

  1. 首先,定义一个离散动作空间 A_d={ a_1,a_2,...,a_k},一般记作action type
  2. 对于每一个离散动作a\in A_d,都有m_a个连续参数{ p^a_1,p^a_2,p^a_3,...,p^a_m}\in R^m和它相对应,一般记作action args

也就是说, 每一个动作由这样的tuple来表示:(p^a_1,p^a_2,p^a_3,...,p^a_m

这样,动作空间就可以表示为A=U_{a\in A_d}(a,p^a_1,p^a_2,p^a_3,...,p^a_m), 图示如下,(引自 Fan, 19)。

传统解法


  • 连续动作离散

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值