Torch 是神经网络库, 那么也可以拿来做强化学习, 之前我用另一个强大神经网络库 Tensorflow来制作了这一个 从浅入深强化学习教程, 你同样也可以用 PyTorch 来实现, 这次我们就举 DQN 的例子, 我对比了我的 Tensorflow DQN 的代码, 发现 PyTorch 写的要简单很多. 如果对 DQN 或者强化学习还没有太多概念, 强烈推荐我的这个DQN动画短片(如下), 让你秒懂DQN. 还有强推这套花了我几个月来制作的强化学习教程!
模块导入和参数设置
这次除了 Torch 自家模块, 我们还要导入 Gym 环境库模块.
import torch
import torch.nn as nn
from torch.autograd import Variable
import torch.nn.functional as F
import numpy as np
import gym
# 超参数
BATCH_SIZE = 32
LR = 0.01 # learning rate
EPSILON = 0.9 # 最优选择动作百分比
GAMMA = 0.9 # 奖励递减参数
TARGET_REPLACE_ITER = 100 # Q 现实网络的更新频率
MEMORY_CAPACITY = 2000 # 记忆库大小
env = gym.make(\'CartPole-v0\') # 立杆子游戏
env = env.unwrapped
N_ACTIONS = env.action_space.n # 杆子能做的动作
N_STATES = env.observation_space.shape[0] # 杆子能获取的环境信息数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18importtorch
importtorch.nnasnn
fromtorch.autogradimportVariable
importtorch.nn.functionalasF
importnumpyasnp
importgym
# 超参数
BATCH_SIZE=32
LR=0.01# learning rate
EPSILON=0.9# 最优选择动作百分比
GAMMA=0.9# 奖励递减参数
TARGET_REPLACE_ITER=100# Q 现实网络的更新频率
MEMORY_CAPACITY=2000# 记忆库大小
env=gym.make(\'CartPole-v0\')# 立杆子游戏
env=env.unwrapped
N_ACTIONS=env.action_space.n# 杆子能做的动作
N_STATES=env.observation_space.shape[0]# 杆子能获取的环境信息数
神经网络
DQN 当中的神经网络模式, 我们将依据这个模式建立两个神经网络, 一个是现实网络 (Target Net), 一个是估计网络 (Eval Net).
class Net(nn.Module):
def __init__(self, ):
super(Net, self).__init__()
self.fc1 = nn.Linear(N_STATES, 10)
self.fc1.weight.data.normal_(0, 0.1) # initialization
self.out = nn.Linear(10, N_ACTIONS)
self.out.weight.data.nor