强化学习之 Q learning

最新推荐文章于 2024-07-25 18:23:06 发布

qq_39060473

最新推荐文章于 2024-07-25 18:23:06 发布

阅读量320

点赞数 1

分类专栏：强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_39060473/article/details/105497673

版权

本文探讨了Q Learning这一强化学习算法，通过分享算法的伪代码，解释了它适用于状态和动作空间均为离散的情况。提供了两个详细的学习资源链接，帮助读者深入理解Q Learning。

摘要由CSDN通过智能技术生成

Q Learning 算法伪代码

https://blog.csdn.net/qq_30615903/article/details/80739243
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-1-A-q-learning/

来自莫烦python
由于Qtable的大小有限制，所以Q Learning比较适合状态空间和动作空间都为离散的情况。

学习资源：莫烦python

import numpy as np
import pandas as pd
import time

# numpy 随机数种子，便于每次运行产生相同的结果
np.random.seed(2)

# 算法参数设置
N_STATES = 6                        # 状态数
ACTIONS = ['left', 'right']         # 动作空间
EPSILON = 0.9                       # greedy算法的参数，随机数大于该值，则按照 q_table 选取动作，否则随机选取动作
ALPHA = 0.1                         # 学习率
GAMMA = 0.9                         # 衰减系数
MAX_EPISODES = 13                   # 最大训练轮数
FRESH_TIME = 0.3                    # 环境更新间隔


# 初始化 q_table
def build_q_table(n_states, actions):
    table = pd.DataFrame(
        np.zeros((n_states, len(actions

最低0.47元/天解锁文章

qq_39060473

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习之 Q learning

Q Learning 算法伪代码由于Qtable的大小有限制，所以Q Learning比较适合状态空间和动作空间都为离散的情况。学习资源：莫烦pythonimport numpy as npimport pandas as pdimport time# numpy 随机数种子，便于每次运行产生相同的结果np.random.seed(2)# 算法参数设置N_STATES = ...
复制链接

扫一扫