离散强化学习 d4rl环境安装

离散强化学习 d4rl环境安装

我是在算力云上进行的安装,具体操作参考
都是小徐的血泪史啊啊啊
在这里插入图片描述
首先是算力云的使用,在本机安装的同学可以直接跳过这一步(●’◡’●)
1.选一个GPU,随机选,选便宜的(bushi)
在这里插入图片描述
2.选择镜像
在这里插入图片描述
3.点击右下角立即创建后,开机等待
在这里插入图片描述
4.进入JupyterLab,点击终端。结束。★,°:.☆( ̄▽ ̄)/$:.°★
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓进入正题↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

第一步——创建环境

conda create -n d4rl_env python=3.7

安装成功后要 输入conda init ,然后关闭终端,重新进入。
激活环境

conda activate d4rl_env

激活成功的界面就是小括号里的base变成你的环境名(如下图)
激活成功的界面就是小括号里的base变成你的环境名
注意:在之前的很多次安装中,我都是在安装mujoco之前安装这些库,但是一直会遇到各种错误,后来我尝试先安装mujoco,就成功安装了。所以第一次按照正常流程安装的你,如果安装失败,可以直接跳到mujoco的安装,忽略下面的包安装。(感觉实际运行代码过程中也会遇到各种各样的包版本问题)
但是我成功安装mujoco和d4rl之后,安装不上这些包,目前还没解决,小徐会随时更新哒(●’◡’●)

安装相应的库(这一步可能出错多次,反复输入命令直至成功即可,需要等很久很久,花都谢掉的那种~≡(▔﹏▔)≡)

conda install pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=11.1 -c pytorch -c conda-forge

记录一下安装的版本信息,因为有两个差不过1G多的包,所以拼网速的时刻到了kkk(∪.∪ )…zzz
在这里插入图片描述
在这里插入图片描述

经过漫长的等待,安装完成后,我们输入以下命令进行检查是否安装成功
首先进入python(直接输入python)

import torch
print(torch.__version__)  #注意是双下划线

输出结果如下证明我们安装成功
在这里插入图片描述
对了,退出python命令是exit()
(我第一次操作真的啥啥不知道,完全靠自己摸索,哭哭━┳━ ━┳━)
到此环境安装配置结束🎊

mujoco安装

linux下基础命令一些基本命令 cd进入文件 cd–退出文件
cd进入文件,下载压缩包
(新建一个Downloads文件夹,下载的东西都放在里边)
在这里插入图片描述

cd ~/Downloads/
wget https://github.com/deepmind/mujoco/releases/download/2.1.0/mujoco210-linux-x86_64.tar.gz

这一步也挺慢的。。。
在这里插入图片描述

解压

tar -zxvf mujoco210-linux-x86_64.tar.gz

然后改名字

mv mujoco210-linux-x86_64.tar.gz mujoco210

解压之后Downloads文件夹下多出来一个mujoco210文件夹
在这里插入图片描述

新建文件夹mujoco,把解压后的文件复制到我们之前建的mujoco文件夹下

mkdir ~/mujoco
cp -r mujoco210 ~/mujoco

在这里插入图片描述

接下来是环境变量的设置,如果你要在自己的电脑上安装,可以参考一些文章:

https://zhuanlan.zhihu.com/p/649494341
https://zhuanlan.zhihu.com/p/489475047
https://jasonzhujp.github.io/2023/04/06/coding-d4rl-install/

vim ~/.bashrc#进入配置文件

复制下面这条报错信息到文件最后,然后按电脑esc键,输入:wq!保存退出(英文状态下)。

export MUJOCO_KEY_PATH=~/.mujoco${MUJOCO_KEY_PATH}
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/root/.mujoco/mujoco210/bin
#export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib/nvidia

需要更新一下

source ~/.bashrc

然后重新激活环境
然后测试看安装是否成功

cd ~/mujoco/mujoco210/bin
./simulate ../model/humanoid.xml

好像会出现一个木偶小人
在这里插入图片描述
但是我的只会出现一个版本信息,不会出现小人,网上的回复是可以忽略。
在这里插入图片描述
over!!!

Mujoco_py安装

#git clone https://github.com/openai/mujoco-py.git
#cd mujoco-py
#pip install -e .
pip install mujoco_py
cd mujoco-py
pip3 install -r requirements.txt
pip3 install -r requirements.dev.txt

输入以上三条指令后,运行界面如下:
在这里插入图片描述
直接输入pip安装界面如下
在这里插入图片描述

然后检查,还是在python下

import mujoco_py 

出现报错(正常现象)
在这里插入图片描述

找不到路径,网上说是因为要下载mjkey?

这里还要到https://www.roboti.us/license.html这个网址申请mjkey,点击activation key,会下载一个.txt文件,把文件复制到mujoco210的bin文件夹下和mujoco文件夹下
在这里插入图片描述
在这里插入图片描述
新的报错
在这里插入图片描述

fatal error: GL/osmesa.h: No such file or directory,那就安装libosmesa6-dev

sudo apt installaptitude
#选y
sudoaptitudeinstall libosmesa6-dev
#第一次选n,后两次选y

问题解决,再次在python下输入import mujoco_py,出现其他报错

Error: FileNotFoundError: [Errno 2] No such file or directory: ‘patchelf’: ‘patchelf’

sudo apt-get update -y
sudo apt-get install -y patchelf

问题解决,我可真棒~(✿◡‿◡)
…………………………………………………………………………
这一步可能出现不同报错,就反复解决,然后import mujoco_py
直到不报错,就安装成功了。
。以下代码逐行输入

import mujoco_py
import os
mj_path = mujoco_py.utils.discover_mujoco()     # 这里好像修改了?改成mj_path = mujoco_py.utils.discover_mujoco()
xml_path = os.path.join(mj_path, 'model', 'humanoid.xml')
model = mujoco_py.load_model_from_path(xml_path)
sim = mujoco_py.MjSim(model)
print(sim.data.qpos)
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

sim.step()
print(sim.data.qpos)
# [-2.09531783e-19  2.72130735e-05  6.14480786e-22 -3.45474715e-06
#   7.42993721e-06 -1.40711141e-04 -3.04253586e-04 -2.07559344e-04
#   8.50646247e-05 -3.45474715e-06  7.42993721e-06 -1.40711141e-04
#  -3.04253586e-04 -2.07559344e-04 -8.50646247e-05  1.11317030e-04
#  -7.03465386e-05 -2.22862221e-05 -1.11317030e-04  7.03465386e-05
#  -2.22862221e-05]


在这里插入图片描述

安装dm

pip install dm_control

安装d4rl

克隆仓库‘

git clone https://github.com/rail-berkeley/d4rl.git

找到到d4rl目录下的setup.py文件,注释mujoco_py, dm_control
在这里插入图片描述
安装后在python下逐行敲入以下代码

# installing
pip install -e .

# 测试,创建test_d4rlpy.py并添加如下内容 vim test_d4rl.py

import gym
import d4rl # Import required to register environments

# Create the environment
env = gym.make('maze2d-umaze-v1')

# d4rl abides by the OpenAI gym interface
env.reset()
env.step(env.action_space.sample())

# Each task is associated with a dataset
# dataset contains observations, actions, rewards, terminals, and infos
dataset = env.get_dataset()
print(dataset['observations']) # An N x dim_observation Numpy array of observations

# Alternatively, use d4rl.qlearning_dataset which
# also adds next_observations.
dataset = d4rl.qlearning_dataset(env)

或者vim新建一个test_d4rl.py文件,然后再输入python test_d4rlpy.py。
测试结果如下
在这里插入图片描述
结束。撒花★,°:.☆( ̄▽ ̄)/$:.°★

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
多智能体强化学习可以在离散环境和连续环境中进行。离散环境指的是智能体的动作空间是离散的,即只能选择有限个动作中的一个进行行动。在离散环境中,智能体通常采用分类问题的方法来选择动作,例如使用Q-learning算法或者深度强化学习中的DQN算法。离散环境在一些棋类游戏或者格子世界等问题中经常被使用。 连续环境指的是智能体的动作空间是连续的,即可以选择任意的动作值进行行动。在连续环境中,智能体通常采用函数优化的方法来选择动作,例如使用深度强化学习中的DDPG算法或者PPO算法。连续环境在一些控制问题中经常被使用,例如机器人控制或者自动驾驶等领域。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [基于Python进行强化学习实验(人工智能实验)【100011561】](https://download.csdn.net/download/s1t16/87649721)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [多智能体强化学习(MARL)训练环境总结](https://blog.csdn.net/weixin_45526117/article/details/129718426)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值