d3rlpy离线强化学习算法库安装及使用

大大马猴

已于 2022-12-04 15:53:45 修改

阅读量1.4k

点赞数 2

文章标签： python 深度学习人工智能 pytorch 算法

于 2022-12-04 15:47:38 首次发布

本文链接：https://blog.csdn.net/Already8888/article/details/128173013

版权

GitHub - takuseno/d3rlpy: An offline deep reinforcement learning library

d3rlpy，离线强化学习算法库

我装在windows下用anaconda，按照官网教程

conda install -c conda-forge d3rlpy

第一次安装报错CondaSSLError: OpenSSL appears to be unavailable on this machine

[报错解决]CondaSSLError: OpenSSL appears to be unavailable on this machine. OpenSSL is required to downl_一件迷途小书童的博客-CSDN博客

参考这篇文章解决后正常安装没问题，值得注意的是d3rkpy安装时包含cudatoolkit11.几，我在想这个在不同电脑上可能之后会出错，不过后面运行算法时可以选择是否使用GPU

我是打算用离线强化学习算法，安装后测试，官网上也有测试代码

import d3rlpy

# prepare dataset
dataset, env = d3rlpy.datasets.get_d4rl('hopper-medium-v0')

# prepare algorithm
cql = d3rlpy.algos.CQL(use_gpu=True)

# train
cql.fit(
    dataset,
    eval_episodes=dataset,
    n_epochs=100,
    scorers={
        'environment': d3rlpy.metrics.evaluate_on_environment(env),
        'td_error': d3rlpy.metrics.td_error_scorer,
    },
)

看得出来，这接口用起来非常方便啊

因为我没装d4rl所以肯定是失败了，d4rl数据集查了下资料可能无法装在windows环境下，有点难办。可以使用下面这个在测试，用的是d3rlpy自带用于测试的数据集，也是比较常用的两个环境，具体是在d3rlpy的文档上找到的

import d3rlpy

# prepare dataset
# dataset, env = d3rlpy.datasets.get_d4rl('CartPole-v0')
dataset, env = d3rlpy.datasets.get_pendulum("random")

# prepare algorithm
cql = d3rlpy.algos.CQL(use_gpu=True)

# train
cql.fit(
    dataset,
    eval_episodes=dataset,
    n_epochs=100,
    scorers={
        'environment': d3rlpy.metrics.evaluate_on_environment(env),
        'td_error': d3rlpy.metrics.td_error_scorer,
    },
)

资料很充分，d3rlpy文档：d3rlpy.datasets.get_cartpole — d3rlpy documentation

成功运行：

如果失败的话可能是下载失败，

在这找到下载网址，自己下载到本地，改成规定的名字即可，放到对d3rlpy_data文件夹里，再运行时就不需要在线下载了，比如这样

之后回到d4rl，我打算把自己的数据集按照d4rl的格式来编写，但我不打算装d4rl

可以看到在d3rlpy中读取d4rl的数据集主要是用d4rl中的get_dataset函数，于是我索性把d4rl中这个函数搬到d3rlpy中，其实就是读取h5格式的函数，也挺好移植，主要也就这一段

        data_dict = {}
        with h5py.File(h5path, 'r') as dataset_file:
            for k in tqdm(get_keys(dataset_file), desc="load datafile"):
                try:  # first try loading as an array
                    data_dict[k] = dataset_file[k][:]
                except ValueError as e:  # try loading as a scalar
                    data_dict[k] = dataset_file[k][()]

注意还需要

import h5py
from tqdm import tqdm

和


def get_keys(h5file):
    keys = []

    def visitor(name, item):
        if isinstance(item, h5py.Dataset):
            keys.append(name)

    h5file.visititems(visitor)
    return keys

至于原先是个类，我感觉好像也不需要，同时还是把在线改掉，直接变成一个绝对位置（这个在d4rl中也可以找到下载的网址）

h5path = "D:\xxx_project\pycharm\offline_RL\d3rlpy_data\hopper_random.hdf5"

运行成功

我考虑下一步制作自己的hdf5格式数据集，及做下自己的gym环境

甚至不能算是入门，希望没有问题，欢迎指正

大大马猴

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
d3rlpy离线强化学习算法库安装及使用

d3rlpy，离线强化学习算法库。有史以来最实用的 RL 库，离线RL：d3rlpy支持最先进的离线RL算法。当在线交互在培训期间不可行时（例如机器人、医疗），离线 RL 非常强大。在线RL：d3rlpy还支持传统的最先进的在线训练算法，没有任何妥协，这意味着您可以解决任何类型的RL问题。DL库的零知识：d3rlpy通过直观的API提供了许多最先进的算法。即使不知道如何使用深度学习库，您也可以成为一名强化学习工程师。广泛的文档：D3RLPY有完整的文档记录，并附有原始论文的教程和复制脚本。
复制链接

扫一扫