强化学习环境配置记录

最新推荐文章于 2025-03-31 15:21:47 发布

hsisjnshud

最新推荐文章于 2025-03-31 15:21:47 发布

阅读量3.1k

点赞数 8

文章标签： python

本文链接：https://blog.csdn.net/hsisjnshud/article/details/133812187

版权

Anaconda+PyCharm+PyTorch+Gym深度强化学习环境搭建送新手直接送进炼丹炉_anaconda安装gym-CSDN博客

gym包更新升级到0.26.2版本后炼丹炉的测试代码_warn: you are calling render method without specif-CSDN博客

报错：DeprecationWarning: `np.bool8` is a deprecated alias for `np.bool_`. (Deprecated NumPy 1.24) if not isinstance(terminated, (bool, np.bool8))：显示numpy版本更新后，不再支持np.bool,如果强行使用，会出现警告，但是结果还是正确的，按照提示，只要把np.bool变成np.bool_,警告消失，运行正常，结果和之前一样。

在Pycharm中，你可以使用以下快捷键进行查找操作：
查找类或文件：Ctrl + N
查找方法或函数：Ctrl + Shift + N
查找变量或字段：Ctrl + Shift + F
查找字符串：Ctrl + F
在文件中查找和替换：Ctrl + R
在项目中查找和替换：Ctrl + Shift + R
查找符号（类、方法、变量等）：Ctrl + Shift + Alt + N
查找下一个匹配项：F3
查找上一个匹配项：Shift + F3
在当前文件中定位到某一行：Ctrl + G
跳转到定义处：Ctrl + 鼠标左键点击
跳转到声明处：Ctrl + B
跳转到父类或接口：Ctrl + U
跳转到上一次编辑的地方：Ctrl + Shift + Backspace
查找下一个错误或警告：F2
查找上一个错误或警告：Shift + F2
这些快捷键可以帮助你快速查找和定位代码中的各种元素，提高开发效率

报错：WARN: You are calling 'step()' even though this environment has already returned terminated = True. You should always call 'reset()' once you receive 'terminated = True' -- any further steps are undefined behavior. logger.warn(

解决：测试gym的cartPole 出错后的更改-CSDN博客

平衡小车代码：

import gym
env = gym.make('MountainCar-v0', render_mode = 'human')   #由于gym库的版本更新以后，在定义环境时需要在环境名后具体指出render_mode=…，注意必须指出具体的render_mode（渲染模式）
for i_episode in range(10):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info, _ = env.step(action)
    if done:
        print("Episode finished after {} timesteps".format(t+1))
        break
env.close()

摆锤代码：

import gym    # 导入 Gym 的 Python 接口环境包
env = gym.make("CartPole-v1", render_mode = 'human')  # 构建实验环境
for episode in range(10):
    env.reset()               # 重置一个回合
    print("Episode finished after {} timesteps".format(episode))
    for _ in range(100):
        env.render()     # 显示图形界面
        # env.step(env.action_space.sample())
        observation, reward, done, info, _ = env.step(env.action_space.sample())   # 从动作空间中随机选取一个动作，提交动作
        if done:
            break
env.close()    # 关闭环境