强化学习 Q Learning 学习笔记1（莫烦PYTHON）

最新推荐文章于 2024-09-16 16:56:48 发布

人间油物丶

最新推荐文章于 2024-09-16 16:56:48 发布

阅读量221

点赞数

分类专栏：强化学习文章标签：强化学习机器学习

本文链接：https://blog.csdn.net/Srrchysfzylll/article/details/113004995

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了Q-Learning算法的核心概念，包括ε-greedy策略、学习率α和未来奖励衰减因子γ。Q值表示从当前状态到最终状态的最优动作质量，Q-Learning通过不断学习和优化决策过程，实现对长期奖励的预测。博客还探讨了Q值的迷人之处，即其能够预见未来奖励，并讨论了奖励表R的自然生成性。整个算法在off-policy学习中平衡了探索与利用。

摘要由CSDN通过智能技术生成

本篇博文是博主在莫烦PYTHON博客中的学习笔记，不用于任何商业用途，仅用于个人学习交流！

Q Learning

Q Learning 整体算法如下图：

在这里插入图片描述

参数	意义
$\epsilon-greedy$	用在决策上的一种策略
$\alpha$	学习率（小于1）, 用来决定这次的误差有多少是要被学习的
$\gamma$	对未来 reward 的衰减值.

比如 $\epsilon$ = 0.9 时, 说明有90% 的情况会按照 Q 表的最优值选择行为, 10% 的时间使用随机选行为。

$\alpha$ 是学习率, 来决定这次的误差有多少是要被学习的, $\alpha$ 是一个小于1 的数。

$\gamma$ 是对未来 reward 的衰减值。我们想象 Q learning 的机器人天生近视眼, gamma = 1 时, 机器人有了一副合适的眼镜, 在 s1 看到的 Q 是未来没有任何衰变的奖励, 也就是机器人能清清楚楚地看到之后所有步的全部价值。但是当 gamma =0, 近视机器人没了眼镜, 只能摸到眼前的 reward, 同样也就只在乎最近的大奖励。如果 gamma 从 0 变到 1, 眼镜的度数由浅变深, 对远处的价值看得越清楚, 所以机器人渐渐变得有远见, 不仅仅只看眼前的利益, 也为自己的未来着想。