离线强化学习(Offline RL)系列2: (环境篇)D4RL数据集简介、安装及错误解决

【更新日志】

Update: 2022年3月14日,增加D4RL安装过程报错问题。.

强化学习快速发展的主要原因在于有一个良好的模拟环境,最终得到一个最优的policy, 然而现实问题就是在实际落地应用中没有有效的环境,为了解决实验环境问题,本文主要对现有的离线强化学习数据集D4RL进行安装,并就出现的相关问题进行汇总。

一、关于D4RL Benchmarks数据集

[Github], [Paper]

1.1 为什么选择 D4RL?

(1) D4RL 收集了大型数据集,包括交互式环境中智能体的记录(即自动驾驶Carla、AntMaze、Mujoco等),且有简单和复杂分类,种类非常丰富,例如:

  • 通过人工演示或硬编码控制器生成的数据。
  • 具有不同策略的异构混合的数据
  • 数据观察智能体在同一环境中完成各种目标。

Environment

(2) D4RL提供了非常简单的API接口,方便于学习者直接去获取数据集完成智能体的训练。

import d4rl # Import required to register environments
env = gym.make('maze2d-umaze-v1')
dataset = env.get_dataset()

(3) D4RL定义了标准的衡量指标
n o r m a l i z e d s c o r e = 100 % ∗ s c o r e − r a n d o m _ s c o r e e x p o r t _ s c o r e − r a n d o m _ s c o r e normalized score =100\%* \frac{score- random\_score}{export\_score-random\_score} normalizedscore=100%export_scorerandom_scorescorerandom_score

(4) D4RL提供了丰富的baseline基准,包括了常见的Offline算法,包括BCQ、BEAR、BRAC等等

Baseline score

1.2 D4RL数据集制作影响因素

D4RL数据集目前来说是离线强化学习涵盖数据集非常丰富的一个数据集,数据质量非常高。其中最主要的是数据的采集综合了6类因素

  • Narrow and biased data distributions
  • Undirected and multitask data
  • Sparse rewards
  • Suboptimal data.
  • Non-representable behavior policies, non-Markovian behavior policies, and partial observ-
    ability.
  • Realistic domains

二、D4RL安装与使用

2.1 官方安装指导(有坑)

D4RL 的安装相对来说比较容易,但其中也有很多的坑

git clone https://github.com/rail-berkeley/d4rl.git
cd d4rl
pip install -e .

另外一种简单的安装方法

pip install git+https://github.com/rail-berkeley/d4rl@master#egg=d4rl

其中会有很多坑,导致安装失败。

下面我们根据初始化安装文件setup.py分析安装

from distutils.core import setup
from platform import platform

from setuptools import find_packages

setup(
    name='d4rl',
    version='1.1',
    install_requires=['gym',
                      'numpy',
                      'mujoco_py',
                      'pybullet',
                      'h5py',
                      'termcolor',  # adept_envs dependency
                      'click',  
  • 8
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@RichardWang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值