Python的Gym库中的Box类

一文李青 理清Gym中的Box类

在OpenAI公司的gym库中,任何一个拥有连续状态的强化学习游戏环境都会用到Box数据类型,Box是一个类。
Box的部分官方代码如下:

import numpy as np
import warnings

from .space import Space
from gym import logger


class Box(Space):
    """
    A (possibly unbounded) box in R^n. Specifically, a Box represents the
    Cartesian product of n closed intervals. Each interval has the form of one
    of [a, b], (-oo, b], [a, oo), or (-oo, oo).

    There are two common use cases:

    * Identical bound for each dimension::
        >>> Box(low=-1.0, high=2.0, shape=(3, 4), dtype=np.float32)
        Box(3, 4)

    * Independent bound for each dimension::
        >>> Box(low=np.array([-1.0, -2.0]), high=np.array([2.0, 4.0]), dtype=np.float32)
        Box(2,)

    """

上面的代码来自gym的box.py文件。并且官方有对这个box类的注释,翻译过来如下:
在这里插入图片描述
那么究竟什么是box数据类型呢?
做一个实验你就懂了,如下:
box数据类型有两种常用方式

第一种用法(对数据sample)

from gym import spaces
a=spaces.Box(low=-1,high=2,shape=(3,4))
print("\r",a.sample(),end=" ")

运行后会输出结果:
在这里插入图片描述
sample函数是box类自带的采样函数,可以对数据进行随机的采样(采样符合正太分布,数据的上限与下限自己定义)
所以,第一种box函数的作用是:
输出一个与shape参数指定大小的矩阵,矩阵的数值正态分布采样生成,并且这个3*4的矩阵的数值的上限为high参数,下限为low参数。

第一种用法(不对数据sample)

from gym import spaces
a=spaces.Box(low=-1,high=2,shape=(3,4))
print("\r",a,end=" ")

运行后会输出结果:
在这里插入图片描述

第二种用法(对数据sample)

import numpy as np
from gym import spaces
a=spaces.Box(low=np.array([-1, -2]), high=np.array([2.0, 4.0]), dtype=np.float32)
for i in range(10):
    print(a.sample())

运行后会输出结果:

在这里插入图片描述
我们循环打印了10次a的采样值,从第二种用法的输出结果我们可以判断出,第二种box函数的作用是:

输出一个1 * 2(一行两列)的ndarray类型(ndarray类型是numpy包里定义的数据类型)的数组,数组的数值正态分布采样生成,并且这个1*2的数组的数值的上限为high参数,下限为low参数。

在这里插入图片描述

第二种用法(不对数据sample)

import numpy as np
from gym import spaces
a=spaces.Box(low=np.array([-1, -2]), high=np.array([2.0, 4.0]), dtype=np.float32)
print(a)

运行后会输出结果:
在这里插入图片描述

如果是自己编写的游戏环境,其实对于环境的状态(observation_space)是可以不对其进行Box数据类型处理的。

  • 15
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值