【强化学习】港中大强化学习课程Assignment解析 01_1

最新推荐文章于 2024-02-12 20:59:01 发布

Csternliao

最新推荐文章于 2024-02-12 20:59:01 发布

阅读量1.9k

点赞数

分类专栏： RL_CUHK_Assignment 文章标签： python 强化学习

本文链接：https://blog.csdn.net/Liao164462791/article/details/122476149

版权

博主最近在学习强化学习与边缘计算相关的知识，以港中大的强化学习课程和Bolei Zhou老师的B站视频为学习资料。注意到港中大强化学习课程中的Assignment还没有同学分享自己的代码答案和思路，所以把自己的解答记录下来，希望能帮助到有需要的朋友，也恳请各位大佬批评指正！

课程相关

Gym的基础应用

env.step(action)

输入一个动作，依次返回observation(下一步的环境/观测)，reward(即时奖励)，done(游戏状态)，info(额外信息)。done的值表示episode是否已经结束。
env.reset()

环境初始化，返回一个初始的observation
env.render()

将环境用人类理解的方式展示出来（可视化）
env.action_space() env.observation_space()

返回环境的动作集合与观测集合。
env.seed(seed)

设置环境的随机种子

FrozenLake8x8-v1 环境

本次作业采用的环境为"FrozenLake8x8-v1"环境。在这个环境中，**智能体(Agent)**需要控制角色在网格中行走，其中一些网格是可以行走的，而有一些是不结实的冰面，角色掉到水中，游戏结束。此外，当角色找到到达终点的路径时会获得奖励。

环境的可视化采用字母矩阵来实现，其中：

在这一节中，需要学会：

# Create the environment
env = gym.make('FrozenLake8x8-v1')

# You need to reset the environment immediately after instantiating env. 
env.reset

关注