用gym创建基本的强化学习环境

最新推荐文章于 2024-08-05 14:31:47 发布

Chen_Chance

最新推荐文章于 2024-08-05 14:31:47 发布

阅读量265

点赞数 11

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_44154915/article/details/137908663

版权

在使用强化学习进行研究时，构建合适的环境是非常关键的一步。在这篇博客中，我将介绍如何使用Python来创建一个基本的强化学习环境，适用于初学者和研究者。我们将使用gym库，这是一个开源的库，提供了许多标准的测试环境，同时也允许我们自定义和扩展。

1. 引入必要的库

首先，我们需要安装并导入必要的库。gym是OpenAI提供的一个工具库，它包含了多种环境的接口，我们可以通过这些接口来训练我们的模型。

import gym

2. 创建环境

gym库中包含多种环境，从经典的CartPole到复杂的机器人模拟。这里我们以CartPole为例，这是一个非常基础的环境，适合初学者。

env = gym.make('CartPole-v1')

3. 初始化环境

在开始训练前，我们需要初始化环境，这通常涉及到重置环境的状态。

initial_state = env.reset()
print("初始状态:", initial_state)

4. 实现交互逻辑

强化学习的核心是与环境的交互。我们可以通过环境的step函数来实现这一点，该函数接收一个动作作为参数，并返回一个元组，包括新的状态、奖励、是否结束以及附加信息。

action = env.action_space.sample()  # 随机选择一个动作
next_state, reward, done, another_boolean, info = env.step(action)
print("下一状态:", next_state)
print("奖励:", reward)
print("是否结束:", done)
print("附加信息:", info)

5. 循环交互

在实际的强化学习任务中，我们会持续与环境交互，直到任务结束。以下是一个简单的循环，用于持续执行动作。

for _ in range(1000):  # 限制交互次数为1000次
    action = env.action_space.sample()  # 随机动作
    state, reward, done, another_boolean, info = env.step(action)
    if done:
        break

6. 完整代码和结果

import gym
env = gym.make('CartPole-v1')
initial_state = env.reset()
print("初始状态:", initial_state)
action = env.action_space.sample()  # 随机选择一个动作
print("随机选择的动作:", action)
print( "env.step(action)",env.step(action))
next_state, reward, done, another_boolean, info = env.step(action)

print("下一状态:", next_state)
print("奖励:", reward)
print("是否结束:", done)
print("附加信息:", info)

for _ in range(1000):  # 限制交互次数为1000次
    action = env.action_space.sample()  # 随机动作
    state, reward, done, another_boolean, info = env.step(action)
    print("当前状态:", state, "奖励:", reward, "是否结束:", done, "附加信息:", info)
    if done:
        break

初始状态: (array([-0.0334919 , -0.01959551,  0.02723671, -0.0114803 ], dtype=float32), {})
随机选择的动作: 1
env.step(action) (array([-0.03388381,  0.17512545,  0.0270071 , -0.2954468 ], dtype=float32), 1.0, False, False, {})
下一状态: [-0.0303813   0.3698522   0.02109817 -0.57949126]
奖励: 1.0
是否结束: False
附加信息: {}
当前状态: [-0.02298426  0.17444101  0.00950834 -0.28023735] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [-0.01949544  0.36942604  0.0039036  -0.5699063 ] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [-0.01210692  0.56449306 -0.00749453 -0.86135685] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [-8.1705517e-04  7.5971621e-01 -2.4721667e-02 -1.1563869e+00] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.01437727  0.9551516  -0.0478494  -1.4567177 ] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.0334803   0.76064837 -0.07698376 -1.1793592 ] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.04869327  0.56660575 -0.10057094 -0.91176814] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.06002538  0.37297782 -0.1188063  -0.6523119 ] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.06748494  0.5695364  -0.13185254 -0.9799183 ] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.07887567  0.37640464 -0.1514509  -0.73138773] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.08640376  0.18366393 -0.16607866 -0.48994258] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.09007704 -0.00877366 -0.17587751 -0.25386092] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.08990157 -0.20100534 -0.18095474 -0.02140344] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.08588146 -0.39313316 -0.1813828   0.20917198] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.0780188  -0.19594382 -0.17719936 -0.1347944 ] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.07409992  0.00121519 -0.17989525 -0.4777264 ] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.07412422  0.19836015 -0.18944977 -0.82127607] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.07809143  0.39549905 -0.2058753  -1.1670593 ] 奖励: 1.0 是否结束: False 附加信息: {}
当前状态: [ 0.0860014   0.20356219 -0.22921649 -0.9453345 ] 奖励: 1.0 是否结束: True 附加信息: {}

###7. 总结与展望

通过这个简单的例子，你可以看到如何使用gym库来创建和交互一个基本的强化学习环境。这只是入门级的内容，真正的研究和应用需要更深入的设计和复杂的环境设置。例如，你可能需要构建自己的环境，或者使用深度学习模型来优化策略。

Chen_Chance

关注

11
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
用gym创建基本的强化学习环境

在使用强化学习进行研究时，构建合适的环境是非常关键的一步。在这篇博客中，我将介绍如何使用Python来创建一个基本的强化学习环境，适用于初学者和研究者。我们将使用gym库，这是一个开源的库，提供了许多标准的测试环境，同时也允许我们自定义和扩展。
复制链接

扫一扫