深入理解强化学习——动作空间(Action Space)

分类目录:《深入理解强化学习》总目录


不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间(Action Space)。像雅达利游戏和围棋(Go)这样的环境有离散动作空间(Discrete Action Space),在这个动作空间里,智能体的动作数量是有限的。在其他环境,比如在物理世界中控制一个智能体,在这个环境中就有连续动作空间(Continuous Action Space)。在连续动作空间中,动作是实值的向量。

例如,走迷宫机器人如果只有往东、往南、往西、往北这4种移动方式,则其动作空间为离散动作空间;如果机器人可以向360度中的任意角度进行移动,则其动作空间为连续动作空间。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

### 关于Python中的强化学习 #### 强化学习简介与Q-Learning算法 在探讨Python中用于实现强化学习的方法时,可以从基本概念出发。强化学习是一种机器学习技术,在这种设置下,代理(agent)通过试错的方式学习如何在一个环境中采取行动以最大化累积奖励[^1]。 #### 使用OpenAI Gym库实践CartPole问题 为了更好地掌握这些理念的实际应用,可以通过构建一个简单的项目来进行练习。例如,利用Python和OpenAI Gym库实现了针对经典控制问题——CartPole的解决方案。在这个过程中,不仅加深了对于Q-learning这一价值迭代方法的理解,还熟悉了环境搭建以及评估模型性能的关键流程。 ```python import gym env = gym.make('CartPole-v0') for i_episode in range(20): observation = env.reset() for t in range(100): env.render() action = env.action_space.sample() # 随机选取动作 observation, reward, done, info = env.step(action) if done: print(f"Episode finished after {t+1} timesteps") break env.close() ``` 这段代码展示了怎样创建并运行一个名为`CartPole-v0`的游戏模拟器实例,同时演示了一些基础操作如重置游戏状态、渲染当前画面帧、执行随机选择的动作等。 #### 探索更多资源 除了官方文档外,还有许多在线课程提供了深入浅出的教学材料供进一步探索。比如由知名学者吴恩达教授主持的一系列有关深度学习强化学习的公开课就包含了丰富的理论讲解和技术指导[^2]。 此外,《强化学习:原理与Python实战》这本书籍也值得推荐给那些渴望深入了解背后数学逻辑的学习者们;书中详细阐述了支撑该领域发展的核心定理及其推导过程[^3]。 最后值得注意的是,在实际开发过程中可能会遇到特定操作系统上的兼容性挑战。因此提前查阅相关指南(如Windows平台下的Gym库配置说明),可以帮助顺利解决问题[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

von Neumann

您的赞赏是我创作最大的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值