机器学习之Grid World的Q-Learning算法解析

本文介绍了Q-Learning在Grid World环境中的应用,这是一种无模型的增强学习技术,能够在Markov决策过程中找到最优策略。通过学习动作价值函数,Q-Learning无需环境模型就能比较不同动作的预期价值。文章还提供了Q-Learning与SARSA算法的区别,并提到了其与深度学习结合的DQN算法,该算法在Atari 2600游戏中表现出专家级水平。
摘要由CSDN通过智能技术生成

来自Github开源项目的基于Grid World游戏的Q-Learning算法
Github地址:https://github.com/rlcode/reinforcement-learning/tree/master/1-grid-world/5-q-learning

Q-Learning

Q-Learning是一项无模型的增强学习技术,它可以在MDP问题中寻找一个最优的动作选择策略。它通过一个动作-价值函数来进行学习,并且最终能够根据当前状态及最优策略给出期望的动作。它的一个优点就是它不需要知道某个环境的模型也可以对动作进行期望值比较,这就是为什么它被称作无模型的。

以下是维基百科原文:

Q-learning is a model-free reinforcement learning technique. Specifically, Q-learning can be used to find an optimal action-selection policy for any given (finite) Markov decision process (MDP). It works by learning an action-value function that ultimately gives the expected utility of taking a given action in a given state and following the optimal policy thereafter. A policy is a rule that the agent follows in selecting actions, given the s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

番茄大圣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值