强化学习经典算法笔记(七)：策略梯度算法Policy Gradient

最新推荐文章于 2024-02-07 09:00:00 发布

hhy_csdn

最新推荐文章于 2024-02-07 09:00:00 发布

阅读量2.3k

点赞数

分类专栏：强化学习文章标签：强化学习算法游戏 pytorch 深度学习

本文链接：https://blog.csdn.net/hhy_csdn/article/details/106435472

版权

策略梯度Policy Gradient

本文介绍策略梯度算法Policy Gradient在连续动作空间上的实例。
以OpenAI Gym上的LunarLanderContinuous-v2游戏环境为例。

原理与公式推导

略，先挖坑

代码

import argparse, math, os, sys
import numpy as np
import gym
from gym import wrappers

import torch
from torch.autograd import Variable
import torch.autograd as autograd
import torch.nn.utils as utils

import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

parser = argparse.ArgumentParser(description='PyTorch REINFORCE example')
parser.add_argument('--env_name', type=str, default='CartPole-v0')
parser.add_argument('--gamma', type=float, default=0.99, metavar='G',
                    help='discount factor for reward (default: 0.99)')
parser.add_argument('--exploration_end', type=int, default=100, metavar='N',  # 
                    help='number of episodes with noise (default: 100)')
parser.add_argument('--seed', type=int, default=123, metavar='N',             # 随机数种子
                    help='random seed (default: 123)')
parser.add_argument('--num_steps', type=int, default=1000, metavar='N',       # 一个episode最长持续帧数
                    help='max episode length (default: 1000)')
parser.add_argument('--num_episodes', type=int, default=2000, metavar='N',    # 训练episode数量
                    help='number of episodes (default: 2000)')
parser.add_argument('--hidden_size',