强化学习Actor Critic Method

最新推荐文章于 2022-05-29 15:18:00 发布

Toddickme

最新推荐文章于 2022-05-29 15:18:00 发布

阅读量219

点赞数

文章标签： python tensorflow 开发语言

本文链接：https://blog.csdn.net/Toddickme/article/details/120889972

版权

import gym, os
from itertools import count
import paddle
import paddle.nn as nn
import paddle.optimizer as optim
import paddle.nn.functional as F
from paddle.distribution import Categorical



device = paddle.get_device()
env = gym.make("CartPole-v0") 

state_size = env.observation_space.shape[0]
action_size = env.action_space.n
lr = 0.001

class Actor(nn.Layer):
    def __init__(self, state_size, action_size):
        super(Actor, self).__init__()
        self.state_size = state_size
        self.action_size = action_size
        self.linear1 = nn.Linear(self.state_size, 128)
        self.linear2 = nn.Linear(128, 256)
        self.linear3 = nn.Linear(256, self.action_size)

    def forward(self, state):
        output = F.relu(self.linear1(state))
        output = F.relu(self.linear2(output))
        output = self.linear3(output)
        distribution = Categorical(F.softmax(output, axis=-1))
        return

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Toddickme

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习Actor Critic Method

import gym, osfrom itertools import countimport paddleimport paddle.nn as nnimport paddle.optimizer as optimimport paddle.nn.functional as Ffrom paddle.distribution import Categoricaldevice = paddle.get_device()env = gym.make("CartPole-v0") s.
复制链接

扫一扫