离线强化学习(Offline RL)系列2: (环境篇)D4RL数据集简介、安装及错误解决

置顶

@RichardWang

已于 2022-04-06 17:23:24 修改

阅读量1.1w

点赞数 8

分类专栏：离线强化学习系列博客文章标签：离线强化学习 OfflineRL

于 2022-03-28 18:32:57 首次发布

本文链接：https://blog.csdn.net/gsww404/article/details/123802410

版权

【更新日志】

Update: 2022年3月14日，增加D4RL安装过程报错问题。.

强化学习快速发展的主要原因在于有一个良好的模拟环境，最终得到一个最优的policy, 然而现实问题就是在实际落地应用中没有有效的环境，为了解决实验环境问题，本文主要对现有的离线强化学习数据集D4RL进行安装，并就出现的相关问题进行汇总。

一、关于D4RL Benchmarks数据集

[Github], [Paper]

1.1 为什么选择 D4RL？

(1) D4RL 收集了大型数据集，包括交互式环境中智能体的记录（即自动驾驶Carla、AntMaze、Mujoco等），且有简单和复杂分类，种类非常丰富，例如：

通过人工演示或硬编码控制器生成的数据。
具有不同策略的异构混合的数据
数据观察智能体在同一环境中完成各种目标。

Environment

(2) D4RL提供了非常简单的API接口，方便于学习者直接去获取数据集完成智能体的训练。

import d4rl # Import required to register environments
env = gym.make('maze2d-umaze-v1')
dataset = env.get_dataset()

(3) D4RL定义了标准的衡量指标
$=100\%* \frac{score- random\_score}{export\_score-random\_score}$

(4) D4RL提供了丰富的baseline基准，包括了常见的Offline算法，包括BCQ、BEAR、BRAC等等

Baseline score

1.2 D4RL数据集制作影响因素

D4RL数据集目前来说是离线强化学习涵盖数据集非常丰富的一个数据集，数据质量非常高。其中最主要的是数据的采集综合了6类因素

Narrow and biased data distributions
Undirected and multitask data
Sparse rewards
Suboptimal data.
Non-representable behavior policies, non-Markovian behavior policies, and partial observ-
ability.
Realistic domains

二、D4RL安装与使用

2.1 官方安装指导(有坑)

D4RL 的安装相对来说比较容易，但其中也有很多的坑

git clone https://github.com/rail-berkeley/d4rl.git
cd d4rl
pip install -e .

另外一种简单的安装方法

pip install git+https://github.com/rail-berkeley/d4rl@master#egg=d4rl

其中会有很多坑，导致安装失败。

下面我们根据初始化安装文件setup.py分析安装

from distutils.core import setup
from platform import platform

from setuptools import find_packages

setup(
    name='d4rl',
    version='1.1',
    install_requires=['gym',
                      'numpy',
                      'mujoco_py',
                      'pybullet',
                      'h5py',
                      'termcolor',  # adept_envs dependency
                      'click',