混合动作空间｜揭秘创造人工智能的黑魔法（3）

OpenDILab开源决策智能平台

已于 2023-06-20 15:54:54 修改

阅读量285

点赞数 2

文章标签：人工智能

于 2023-06-20 15:51:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55289267/article/details/131307233

版权

我们将从本篇博客开始，揭秘学术界和工业界解决混合动作空间的种种黑魔法。本篇将介绍，基于Q函数的强化学习混合动作空间算法。

摘要由CSDN通过智能技术生成

在前两篇博客中，我们介绍了深度强化学习的动作空间定义和常见的预处理方法。

混合动作空间 | 创造人工智能的黑魔法(1)_面向连续-离散混合决策的游戏ai智能体强化学习方法_OpenDILab开源决策智能平台的博客-CSDN博客

混合动作空间｜揭秘创造人工智能的黑魔法（2）_OpenDILab开源决策智能平台的博客-CSDN博客

过去的强化学习研究大部分都关注离散动作和连续动作问题，但由于混合动作空间在诸多真实世界问题例如游戏AI、自动驾驶等领域有着广泛应用，近些年也涌现出一系列解决混合动作空间问题的方法。

因此我们将从本篇博客开始，揭秘学术界和工业界解决混合动作空间的种种黑魔法。

本篇将介绍，基于Q函数的强化学习混合动作空间算法。

关于Parametrized Action Space

首先我们来回顾一下 Parametrized Action Space 的定义。

Parameterized Action Space 的概念最早在这篇15年的paper “Deep reinforcement learning in parameterized action space” 中被提出，其核心构成如下：

paper 链接：https://arxiv.org/abs/1511.04143

首先，定义一个离散动作空间 $A_d$ ={ $a_1,a_2,...,a_k$ }，一般记作action type
对于每一个离散动作 $a\in A_d$ ，都有 $m_a$ 个连续参数{ $p^a_1,p^a_2,p^a_3,...,p^a_m$ } $\in R^m$ 和它相对应，一般记作action args

也就是说，每一个动作由这样的tuple来表示：（ $p^a_1,p^a_2,p^a_3,...,p^a_m$ ）

这样，动作空间就可以表示为 $A=U_{a\in A_d}(a,p^a_1,p^a_2,p^a_3,...,p^a_m)$ , 图示如下，（引自 Fan, 19）。

传统解法

连续动作离散

最低0.47元/天解锁文章

OpenDILab开源决策智能平台

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
混合动作空间｜揭秘创造人工智能的黑魔法（3）

我们将从本篇博客开始，揭秘学术界和工业界解决混合动作空间的种种黑魔法。本篇将介绍，基于Q函数的强化学习混合动作空间算法。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。