强化学习 Q Learning 学习笔记1(莫烦PYTHON)

本文介绍了Q-Learning算法的核心概念,包括ε-greedy策略、学习率α和未来奖励衰减因子γ。Q值表示从当前状态到最终状态的最优动作质量,Q-Learning通过不断学习和优化决策过程,实现对长期奖励的预测。博客还探讨了Q值的迷人之处,即其能够预见未来奖励,并讨论了奖励表R的自然生成性。整个算法在off-policy学习中平衡了探索与利用。
摘要由CSDN通过智能技术生成

本篇博文是博主在莫烦PYTHON博客中的学习笔记,不用于任何商业用途,仅用于个人学习交流!

Q Learning

Q Learning 整体算法如下图:

在这里插入图片描述

参数意义
ϵ − g r e e d y \epsilon-greedy ϵgreedy用在决策上的一种策略
α \alpha α学习率(小于1), 用来决定这次的误差有多少是要被学习的
γ \gamma γ对未来 reward 的衰减值.

比如 ϵ \epsilon ϵ = 0.9 时, 说明有90% 的情况会按照 Q 表的最优值选择行为, 10% 的时间使用随机选行为。

α \alpha α 是学习率, 来决定这次的误差有多少是要被学习的, α \alpha α 是一个小于1 的数。

γ \gamma γ 是对未来 reward 的衰减值。我们想象 Q learning 的机器人天生近视眼, gamma = 1 时, 机器人有了一副合适的眼镜, 在 s1 看到的 Q 是未来没有任何衰变的奖励, 也就是机器人能清清楚楚地看到之后所有步的全部价值。 但是当 gamma =0, 近视机器人没了眼镜, 只能摸到眼前的 reward, 同样也就只在乎最近的大奖励。如果 gamma 从 0 变到 1, 眼镜的度数由浅变深, 对远处的价值看得越清楚, 所以机器人渐渐变得有远见, 不仅仅只看眼前的利益, 也为自己的未来着想。

Q值的定义,从当前状态开始,之后每一次状态决策都采取最优解,直到最后一个状态(Game over)的动作质量(quality)。
Q值可以一眼看穿未来,这就是Q learning 的迷人之处。
奖励表 R 是自然生成客观存在的。

Q Learning 更新

在这里插入图片描述

我们虽然用 maxQ(s2) 估算了一下 s2 状态, 但还没有在 s2 上做出任何的行为, s2 的行为决策要等到更新完了以后再重新另外做.。这就是 off-policy 的 Q learning 如何决策和学习优化决策的过程。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人间油物丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值