Plan2Explore 开源项目使用教程

Plan2Explore 开源项目使用教程

plan2explore Repository for the paper "Planning to Explore via Self-Supervised World Models" plan2explore 项目地址: https://gitcode.com/gh_mirrors/pl/plan2explore

1、项目介绍

Plan2Explore 是一个基于自监督世界模型的强化学习项目,旨在通过自我探索来学习有效的策略。该项目通过训练一个世界模型来预测不同潜在行动的结果,从而使代理能够在其想象中进行规划,快速解决新任务。Plan2Explore 在连续控制基准测试中表现出色,尤其是在零样本和少样本学习方面。

2、项目快速启动

环境准备

  1. 安装依赖

    • CUDNN-7.6
    • CUDA-9.0
    • Python-3.6
    • Tensorflow 1.14.0
    • Tensorflow Probability 0.7.0
    • DeepMind Control Suite (推荐使用 osmesa 渲染选项)
    • gym
    • imageio
    • matplotlib
    • ruamel.yaml
    • scikit-image
    • scipy
    • Mujoco-200: 下载二进制文件并放置在合适的位置
  2. 克隆仓库

    git clone https://github.com/ramanans1/plan2explore.git
    cd plan2explore/
    
  3. 创建虚拟环境并激活

    python3.6 -m venv Plan2Explore
    source $PWD/Plan2Explore/bin/activate
    
  4. 安装依赖包

    pip install --upgrade pip
    pip install -r requirements.txt
    

运行示例

  1. 零样本结果复现

    python dreamerv2/train.py --logdir ~/logs/walker_walk/zero_shot --configs dmc_vision --task dmc_walker_walk --expl_behavior Plan2Explore --expl_until 2e6 --steps 2e6 --grad_heads 'decoder'
    
  2. 少样本结果复现

    python dreamerv2/train.py --logdir ~/logs/walker_walk/zero_shot --configs dmc_vision --task dmc_walker_walk --expl_behavior Plan2Explore --expl_until 5e5 --steps 5.05e5 --grad_heads 'decoder'
    

3、应用案例和最佳实践

应用案例

Plan2Explore 可以应用于各种需要连续控制的场景,例如机器人导航、自动驾驶等。通过自监督学习,代理能够在没有明确奖励信号的情况下,通过探索环境来学习有效的策略。

最佳实践

  1. 调整探索行为

    • 可以通过调整 --expl_behavior 参数来改变探索行为。
    • 使用 --expl_until 参数来控制探索阶段的持续时间。
  2. 优化模型性能

    • 调整 --grad_heads 参数以优化模型的梯度更新。
    • 使用 --steps 参数来控制训练的总步数。

4、典型生态项目

  1. Dreamer V2

    • Plan2Explore 基于 Dreamer V2 构建,Dreamer V2 是一个强大的模型预测控制框架,适用于各种强化学习任务。
  2. DeepMind Control Suite

    • 该项目使用 DeepMind Control Suite 作为基准测试环境,提供了丰富的连续控制任务。
  3. TensorFlow

    • Plan2Explore 使用 TensorFlow 作为主要深度学习框架,提供了强大的计算能力和灵活的模型构建工具。

通过以上模块的介绍和实践,您可以快速上手并深入了解 Plan2Explore 开源项目。

plan2explore Repository for the paper "Planning to Explore via Self-Supervised World Models" plan2explore 项目地址: https://gitcode.com/gh_mirrors/pl/plan2explore

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瞿千斯Freda

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值