DRL Hands-on Chapter2

最新推荐文章于 2023-05-30 09:55:27 发布

haiyan316

最新推荐文章于 2023-05-30 09:55:27 发布

阅读量118

点赞数

分类专栏：强化学习handson 文章标签：强化学习

强化学习handson 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Agent 结构：

class Environment:

def __init__(self) # 环境初始化内部状态

def get_observation(self) # 向agent返回当前环境的observation

def get_actions(self) # 用作让agent 获取可执行的action

def is_done(self) # 用作判断一个episode是否结束

def action(self, action) # 用于执行动作，并返回该动作对应的reward

class Agent:

def __init__(self) # 可以用作初始化计数器来计算所有奖励

def step(self, env) # 用于获取环境，获取选择并执行动作，得到当前步骤的奖励

Gym 中的 environment 由 Env class 表示

action_space # 环境中的所有action

observationn_space # 包含环境中的observation

reset() # 重置环境到最初的状态

# 没有输入，创建环境后调用

step() # 允许agent给出动作，返回动作的结果：下一个observation，当前的reward，episode结束标志

# 输入是action，返回( observation, reward, done, extra_info)

Gym 中环境创建

make(env_name)

Gym 中的 Wrapper，用于拓展 environment 的功能，其中有多个子类

ObservationWrapper 需要重写 observation(obs) 方法，obs是 an observation from the wrapped environment，方法返回的是给agent的observation

RewardWrapper 公开了reward(rew)方法，可以修改给agent的reward

ActionWrapper 重写 action(act) 方法，可以tweak the action passed to the wrapped environment to the agent.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DRL Hands-on Chapter2

Agent 结构：class Environment: def __init__(self) # 环境初始化内部状态 def get_observation(self) # 向agent返回当前环境的observation def get_actions(self) # 用作让agent 获取可执行的action def is_done(self) # ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。