混合动作空间 | 创造人工智能的黑魔法(1)

OpenDILab新开设了混合动作空间专栏,将从离散动作空间连续动作空间入手,为大家介绍混合动作空间的起源和发展,并解读一系列学术界相关paper。

本文作为混合动作空间系列专题文章的第一篇,主要是介绍混合动作空间的类型以及经典环境,公式不多,可以放心食用~

近年来,强化学习的混合动作空间(Hybrid Action Space) 逐渐成为热门话题。动作空间是强化学习问题里的一个重要设定。我们训练一个人工智能体,都离不开动作空间。

动作空间的重要性有以下两点,设计良好的动作空间,对于强化学习算法的训练非常重要:

1.处理不同的动作空间类型,需要采取不同的优化算法;
 

2.动作空间的复杂性也影响着RL算法的性能表现。

一个典型的强化学习环境通常是离散(Discrete) 或连续 (Continuous) 动作空间。有很多朋友对强化学习环境很感兴趣,想要深究钻研。

在此推荐下我们的强化学习平台DI-engine,平台介绍了目前强化学习领域各种经典的离散/连续/混合动作环境,也总结了各种RL算法所适用的动作空间类型。

✨DI-engine项目repo地址:https://github.com/opendilab/DI-engine

 

离散动作空间指动作的可取值是有限个离散的数值,比如

常见的解决离散动作空间的RL经典算法有 DQN(Human-level control through deep reinforcement learning)、A2C(Asynchronous Methods for Deep Reinforcement Learning) 等。

✨DQN介绍:https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

✨A2C介绍:https://arxiv.org/pdf/1602.01783.pdf


 

例如,Atari是最经典最常用的离散动作空间强化学习环境,常作为离散动作空间强化学习算法的基准测试环境。

✨Atari详细指南:icon-default.png?t=M4ADhttps://di-engine-docs.readthedocs.io/zh_CN/latest/env_tutorial/atari_zh.html

Atari强化学习环境

连续动作空间指动作的可取值是无限个连续的数值,比如

。常见的解决连续动作空间的RL经典算法有 DDPGACER

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值