gym平衡木训练Q-learning完整代码

最新推荐文章于 2024-07-29 00:51:32 发布

大囚长

最新推荐文章于 2024-07-29 00:51:32 发布

阅读量625

点赞数 12

分类专栏：机器学习文章标签：人工智能

本文链接：https://blog.csdn.net/Jailman/article/details/136542726

版权

本文介绍了如何使用Python的gym库和Q-learning算法在CartPole-v0环境中训练一个AI模型，通过离散化状态和动作，实现强化学习过程中的决策制定和Q-table更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

安装

pip install gym

编码运行

#coding=utf8

import gym
import numpy as np

env = gym.make('CartPole-v0')

max_number_of_steps = 200   # 每一场游戏的最高得分
#---------获胜的条件是最近100场平均得分高于195-------------
goal_average_steps = 195
num_consecutive_iterations = 100
#----------------------------------------------------------
num_episodes = 5000 # 共进行5000场游戏
last_time_steps = np.zeros(num_consecutive_iterations)  # 只存储最近100场的得分（可以理解为是一个容量为100的栈）

# q_table是一个256*2的二维数组
# 离散化后的状态共有4^4=256中可能的取值，每种状态会对应一个行动
# q_table[s][a]就是当状态为s时作出行动a的有利程度评价值
# 我们的AI模型要训练学习的就是这个映射关系表
q_table = np.random.uniform(low=-1, high=1, size=(4 ** 4, env.action_space.n))

# 分箱处理函数，把[clip_min,clip_max]区间平均分为num段，位于i段区间的特征值x会被离散化为i
def bins(clip_min, clip_max, num):
    return np.linspace