【强化学习】港中大强化学习课程Assignment解析 01_1

【强化学习】港中大强化学习课程Assignment解析 01_1

博主最近在学习强化学习与边缘计算相关的知识,以港中大的强化学习课程和Bolei Zhou老师的B站视频为学习资料。注意到港中大强化学习课程中的Assignment还没有同学分享自己的代码答案和思路,所以把自己的解答记录下来,希望能帮助到有需要的朋友,也恳请各位大佬批评指正!

课程相关

1 热身活动

Gym的基础应用

  • env.step(action)

    输入一个动作,依次返回observation(下一步的环境/观测),reward(即时奖励),done(游戏状态),info(额外信息)。done的值表示episode是否已经结束。

  • env.reset()

    环境初始化,返回一个初始的observation

  • env.render()

    将环境用人类理解的方式展示出来(可视化)

  • env.action_space() env.observation_space()

    返回环境的动作集合与观测集合。

  • env.seed(seed)

    设置环境的随机种子

FrozenLake8x8-v1 环境

本次作业采用的环境为"FrozenLake8x8-v1"环境。在这个环境中,**智能体(Agent)**需要控制角色在网格中行走,其中一些网格是可以行走的,而有一些是不结实的冰面,角色掉到水中,游戏结束。此外,当角色找到到达终点的路径时会获得奖励。

环境的可视化采用字母矩阵来实现,其中:

  • S:起点,安全
  • F:冰面,安全
  • H:洞,不安全
  • G:终点,安全

1.1 创造环境

在这一节中,需要学会:

  1. 创建环境
  2. 设置环境的随机种子
  3. 理解什么是观测空间**(observation space),什么是动作空间(action space)**
# Create the environment
env = gym.make('FrozenLake8x8-v1')

# You need to reset the environment immediately after instantiating env. 
env.reset
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值