Q-Learning算法学习

最新推荐文章于 2024-03-18 21:53:43 发布

VIP文章 DrCrypto

最新推荐文章于 2024-03-18 21:53:43 发布

阅读量2.3w

点赞数 9

分类专栏： Deep Learning 文章标签：算法强化学习 q-learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011240016/article/details/76242207

版权

Q-Learning算法学习

简介

Q-Learning算法下，目标是达到目标状态(Goal State)并获取最高收益，一旦到达目标状态，最终收益保持不变。因此，目标状态又称之为吸收态。

Q-Learning算法下的agent，不知道整体的环境，知道当前状态下可以选择哪些动作。

通常，我们需要构建一个即时奖励矩阵R，用于表示从状态s到下一个状态s’的动作奖励值。

由即时奖励矩阵R计算得出指导agent行动的Q矩阵。

Q矩阵是agent的大脑。

初始时，Q矩阵元素全部初始化为0，表示当前的agent大脑一片空白，什么也不知道。

而计算 $Q(s,a)$ 的推导公式是：

Q(s,a)=R(

最低0.47元/天解锁文章

关注

9
点赞
踩
43

收藏

觉得还不错? 一键收藏
6
评论
Q-Learning算法学习

Q-Learning算法学习简介Q-Learning算法下，目标是达到目标状态(Goal State)并获取最高收益，一旦到达目标状态，最终收益保持不变。因此，目标状态又称之为吸收态。Q-Learning算法下的agent，不知道整体的环境，知道当前状态下可以选择哪些动作。通常，我们需要构建一个即时奖励矩阵R，用于表示从状态s到下一个状态s’的动作奖励值。由即时奖励矩阵R计算得出指导agent行动的
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。