混合动作空间 | 创造人工智能的黑魔法(1)

最新推荐文章于 2024-06-02 08:45:00 发布

OpenDILab开源决策智能平台

最新推荐文章于 2024-06-02 08:45:00 发布

阅读量1.1k

点赞数 1

分类专栏：混合动作空间文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55289267/article/details/125047300

版权

OpenDILab新开设了混合动作空间专栏，将从离散动作空间和连续动作空间入手，为大家介绍混合动作空间的起源和发展，并解读一系列学术界相关paper。

本文作为混合动作空间系列专题文章的第一篇，主要是介绍混合动作空间的类型以及经典环境，公式不多，可以放心食用~

近年来，强化学习的混合动作空间（Hybrid Action Space) 逐渐成为热门话题。动作空间是强化学习问题里的一个重要设定。我们训练一个人工智能体，都离不开动作空间。

动作空间的重要性有以下两点，设计良好的动作空间，对于强化学习算法的训练非常重要：

1.处理不同的动作空间类型，需要采取不同的优化算法；

2.动作空间的复杂性也影响着RL算法的性能表现。

一个典型的强化学习环境通常是离散（Discrete) 或连续 (Continuous) 动作空间。有很多朋友对强化学习环境很感兴趣，想要深究钻研。

在此推荐下我们的强化学习平台DI-engine，平台介绍了目前强化学习领域各种经典的离散/连续/混合动作环境，也总结了各种RL算法所适用的动作空间类型。

✨DI-engine项目repo地址:https://github.com/opendilab/DI-engine

离散动作空间指动作的可取值是有限个离散的数值，比如

。

常见的解决离散动作空间的RL经典算法有 DQN(Human-level control through deep reinforcement learning)、A2C(Asynchronous Methods for Deep Reinforcement Learning) 等。

✨DQN介绍：https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

✨A2C介绍：https://arxiv.org/pdf/1602.01783.pdf

例如，Atari是最经典最常用的离散动作空间强化学习环境，常作为离散动作空间强化学习算法的基准测试环境。

✨Atari详细指南：https://di-engine-docs.readthedocs.io/zh_CN/latest/env_tutorial/atari_zh.html

Atari强化学习环境

连续动作空间指动作的可取值是无限个连续的数值，比如

。常见的解决连续动作空间的RL经典算法有 DDPG、ACER。

最低0.47元/天解锁文章

OpenDILab开源决策智能平台

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
混合动作空间 | 创造人工智能的黑魔法(1)

OpenDILab新开设了混合动作空间专栏，将从离散动作空间和连续动作空间入手，为大家介绍混合动作空间的起源和发展，并解读一系列学术界相关paper。本文作为混合动作空间系列专题文章的第一篇，主要是介绍混合动作空间的类型以及经典环境，公式不多，可以放心食用~近年来，强化学习的混合动作空间（Hybrid Action Space) 逐渐成为热门话题。动作空间是强化学习问题里的一个重要设定。我们训练一个人工智能体，都离不开动作空间。动作空间的重要性有以下两点，设计良好的动作空间，对于
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。