强化学习学习总结（一）——Qlearning

最新推荐文章于 2024-07-24 17:44:22 发布

Raoodududu

最新推荐文章于 2024-07-24 17:44:22 发布

阅读量1.5k

点赞数

分类专栏：强化学习文章标签： QLearning 强化学习

本文链接：https://blog.csdn.net/Raoodududu/article/details/82890690

版权

本文主要介绍了Qlearning算法的思想构架和程序实现过程，包括算法的基本原理，程序实现的步骤，如初始化、Q表创建、行动选择、环境反馈和更新等关键环节，并通过具体示例展示了QLearning算法的应用结果。

摘要由CSDN通过智能技术生成

一、Qlearning算法思想构架

二、Qlearing算法程序实现

1.导入

import numpy as np
import pandas as pd
import time

2.给定初始值

N_STATES = 6                    # 总长度the length of the 1 dimensional world
ACTIONS = ['left', 'right']     # Q表格的行为available actions
EPSILON = 0.9                   # 贪婪率greedy police
ALPHA = 0.1                     # 学习率learning rate
GAMMA = 0.9                     # 最大Q(s')的衰减率→Q表现实值 discount factor
MAX_EPISODES = 6                # 最大循环数maximum episodes
FRESH_TIME = 0.3                # 更新时间fresh time for one move

3.创建Q表函数

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Raoodududu

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
强化学习学习总结（一）——Qlearning

一、Qlearning算法思想构架二、Qlearing算法程序实现 1.导入import numpy as npimport pandas as pdimport time2.给定初始值N_STATES = 6 # 总长度the length of the 1 dimensional worldACTIONS = ['left...
复制链接

扫一扫