强化学习库tianshou——DQN使用

最新推荐文章于 2024-04-26 14:51:14 发布

Lejeune

最新推荐文章于 2024-04-26 14:51:14 发布

阅读量5.1k

点赞数 6

文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_42056422/article/details/113274382

版权

本文介绍了清华大学学生开源的强化学习库tianshou，并分享了使用该库实现DQN强化学习的经验。作者对比了tianshou与其他库，强调了tianshou在文档和性能上的优势。在实践中，作者采用面向对象的方式组织代码，详细阐述了策略类（policy）和DQN策略的实现，特别提到了种子设置的重要性以确保复现性。虽然tianshou速度快，但功能不全，作者考虑转向支持多智能体的ray库。

摘要由CSDN通过智能技术生成

强化学习库tianshou——DQN使用

tianshou是清华大学学生开源编写的强化学习库。本人因为一些比赛的原因，有使用到强化学习，但是因为过于紧张与没有尝试快速复现强化学习的代码，并没有获得很好的成绩，故尝试用库进行快速复现。

之前也尝试了parl等库，感觉parl在文档等方面似乎并不如tianshou，性能上作为菜鸟不好评价。tianshou的官方文档也有很久没有更新了，上面有些代码不能运行，用了最新版tianshou的github上的代码案例进行学习，相关注释已经记录。

import os
import gym
import torch
import pickle
import pprint
import argparse
import numpy as np
from torch.utils.tensorboard import SummaryWriter

from tianshou.policy import DQNPolicy
from tianshou.env import DummyVectorEnv
from tianshou.utils.net.common import Net
from tianshou.trainer import offpolicy_trainer
from tianshou.data import Collector, ReplayBuffer, PrioritizedReplayBuffer


def get_args():
    '''
    max_epoch：最大允许的训练轮数，有可能没训练完这么多轮就会停止（因为满足了 stop_fn 的条件）

    step_per_epoch：每个epoch要更新多少次策略网络

    collect_per_step：每次更新前要收集多少帧与环境的交互数据。上面的代码参数意思是，每收集10帧进行一次网络更新

    episode_per_test：每次测试的时候花几个rollout进行测试

    batch_size：每次策略计算的时候批量处理多少数据

    train_fn：在每个epoch训练之前被调用的函数，输入的是当前第几轮epoch和当前用于训练的env一共step了多少次。上面的代码意味着，在每次训练前将epsilon设置成0.1

    test_fn：在每个epoch测试之前被调用的函数，输入的是当前第几轮epoch和当前用于训练的env一共step了多少次。上面的代码意味着，在每次测试前将epsilon设置成0.05

    stop_fn：停止条件，输入是当前平均总奖励回报（the average undiscounted returns），返回是否要停止训练

    writer：天授支持 TensorBoard，可以像下面这样初始化：

    :return:
    '''
    parser = argparse.ArgumentParser()
    parser.add_argument('--task', type=str, default='CartPole-v0')  # 环境名
    parser.add_argument('--seed', type=int, default=1626)  # 随机种子
    parser.add_argument('--eps-test', type=float, default=0.05)  # 贪婪策略的比例
    parser.add_argument('--eps-train', type=float, default=0.1)  # 贪婪策略的比例
    parser.add_argument('--buffer-size', type=int, default=20000)  # 回放池大小
    parser.add_argument('--lr', type=float, default=1e-3)  # 学习率
    parser.add_argument('--gamma', type=float, default=0.9)  # 衰减率
    parser.add_argument('--n-step', type=int, default=3)  # 要向前看的步数
    parser.add_argument('--target-update-freq', type=int, default=320)  # 目标网络的更新频率，每隔freq次更新一次，0为不使用目标网络
    parser.add_argument('--epoch', type=int, default=10)  # 世代
    parser.add_argument('--step-per-epoch', type=int, default=1000)  # 每个世代策略网络更新的次数
    parser.add_argument('--collect-per-step', type=int, default=10)  # 网络更新之前收集的帧数
    parser.add_argument('--batch-size', type=int, default=64)  # 神经网络批训练大小
    parser.add_argument('--hidden-sizes', type=int,
                        nargs='*', default=[128, 128, 128, 128])  # 隐藏层尺寸
    parser.add_argument('--training-num', type=int, default=8)  # 学习环境数量
    parser.add_argument('--test-num', type=int, default=100)  # 测试环境数量
    parser.add_argument('--logdir', type

最低0.47元/天解锁文章

Lejeune

关注

6
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
强化学习库tianshou——DQN使用

强化学习库tianshou——DQN使用tianshou是清华大学学生开源编写的强化学习库。本人因为一些比赛的原因，有使用到强化学习，但是因为过于紧张与没有尝试快速复现强化学习的代码，并没有获得很好的成绩，故尝试用库进行快速复现。之前也尝试了parl等库，感觉parl在文档等方面似乎并不如tianshou，性能上作为菜鸟不好评价。tianshou的官方文档也有很久没有更新了，上面有些代码不能运行，用了最新版tianshou的github上的代码案例进行学习，相关注释已经记录。import osimp
复制链接

扫一扫