代码实现Q-learning

最新推荐文章于 2023-12-11 11:38:11 发布

RunningCode丿H

最新推荐文章于 2023-12-11 11:38:11 发布

阅读量4.9k

点赞数 1

分类专栏：兴趣作品

本文链接：https://blog.csdn.net/qq_38286571/article/details/81605809

版权

深度学习Q—learning Q矩阵的更新基本公式如下：
Q_new（state，action）=(1-alpha)Q(state,action)+
alpha(R(state,action)+gamma*max*Q(stae_next,action_next))
以10X10矩阵为例代码实现为：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#reward = pd.read_excel("Qdata.xls")#如果以excel形式导入数据，可以使用这两个语句
#reward = np.array(reward)
#根据场景需求定义初始R矩阵
reward = np.array([[-1, 0, -1, -1, 0, -1, -1, -1

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RunningCode丿H

关注关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
代码实现Q-learning

深度学习Q—learning Q矩阵的更新基本公式如下： Q_new（state，action）=(1-alpha)Q(state,action)+ alpha(R(state,action)+gamma*max*Q(stae_next,action_next)) 以10X10矩阵为例代码实现为：import pandas as pdimport numpy as n...
复制链接

扫一扫