强化学习算法[1] Q-Learning笔记

最新推荐文章于 2022-10-08 21:11:42 发布

AaronXueNF

最新推荐文章于 2022-10-08 21:11:42 发布

阅读量256

点赞数

分类专栏：强化学习笔记文章标签：算法机器学习强化学习

本文链接：https://blog.csdn.net/AaronXueNF/article/details/120594683

版权

强化学习笔记专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Q-learning 解决的问题

Q-Learning解决决策问题，即在目前所处的环境下，采取何种行动才能获得最大收益。

需要注意的是，采取Q-Learning算法求解问题时需要保证所处的状态S为有限可列个，在每种状态下采取的行动a也为有限可列个！

Q-learning 算法简介

Q-Learning是一种强化学习中的value-based的算法，即根据目前所处状态下每个可采取行动的value，即Q值，Q(S,a)决策下一步行动。
该算法实现的关键在于Q-table的建立与更新，该表如下所示：

	a1	…	am
S1	$Q (S 1, a 1)$	…	$Q (S 1, a 1)$
S2	$Q (S 2, a 1)$	…	$Q (S 1, a 1)$
…	…	…	…
Sn	$Q (S n, a 1)$	…	$Q (S n, a m)$

Q-learning 算法描述

Initialize Q(s,a) arbitrarily
Repeat (for each episode):
    Initialize s
    Repeat (for each step of episode):
        Choose a from s using policy derived from Q (e.g., ε-greedy)
        Take action a, observe r, s'
        Q(s,a) = Q(s,a) + α*[r + γ*max_a'(Q(s',a')) - Q(s,a)]
        s = s'
    Until s is terminal

Q-learning 算法理解

关于算法流程

Q值的理解：在给定状态S下，采取行动a期望得到的收益；
Q表的作用：存储可能的状态，以及该状态下不同行动期望得到的收益；
外层循环（2-9行）的作用：在给定的环境中达成目标为一轮循环，同时也完成一轮训练；
内层循环（4-8行）的作用：在给定的环境中采取行动实现状态的转移并根据环境反馈的收益r更新Q-Table；
行动的选择（第5行）：采取ε-greedy策略，每次选择有(1-ε)的概率选择当前状态下Q值最大的行动a，有ε概率随机选择行动a；
- 其意义在于做出新的行动尝试，即随机探索环境的过程；
- 在没有学习到环境以前，随机采取a，然后根据环境的反馈采取上式更新旧状态s下采取a的Q值，如此循环；随着逐渐学习，ε-greedy起到保证能学习到新内容的作用；
得到反馈（第6行）来到新的状态S’，得到环境的反馈r；
更新Q值与状态（7-8行）；

关于公式
Q值更新公式：
$γmax_{a'}(Q(s',a')) - Q(s,a)] \tag{1}$
个人便于理解改写成：
$γmax_{a'}(Q(s',a'))] \tag{2}$

其中：

$α$ 为学习率，决定学习速度；
$(1 - α) Q (s, a)$ 是对于过去Q值的衰减；
$α[r + γmax_{a'}(Q(s',a'))]$ 是根据环境反馈学习得到的Q值。

对于第二项：
$γmax_{a'}(Q(s',a'))\tag{3}$

其中：

$r$ 为环境直接给出的反馈，在s状态下采取行动a来到状态s’后环境给予的收益；
$γ$ 为对新状态s’下最大收益的衰减；
$max_{a'}(Q(s',a'))$ 表示取新状态s’下期望得到的最大的收益，a’为此时采取的行动。

关于γ个人学习的是以下两种理解：

什么是 Q Leaning 莫烦老师的理解：
如何用简单例子讲解 Q - learning 的具体过程？牛阿老师的例子：

γ越大，小鸟就会越重视以往经验，越小，小鸟只重视眼前利益（R）。

踩坑的记录

对于状态的建模！ 比如上述的flappy bird中，小鸟在做出上飞的决策后实际上产生了一个加速度，这个加速上升到坠落的过程会对后面的状态产生影响，应该被考虑。
奖励函数的设置！ 需要考虑多种情况（还在探索ing）

AaronXueNF

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习算法[1] Q-Learning笔记

Q-learning 解决的问题Q-Learning解决决策问题，即在目前所处的环境下，采取何种行动才能获得最大收益。需要注意的是，采取Q-Learning算法求解问题时需要保证所处的状态S为有限可列个，在每种状态下采取的行动a也为有限可列个！Q-learning 算法简介Q-Learning是一种强化学习中的value-based的算法，即根据目前所处状态下每个可采取行动的value，即Q值，Q(S,a)决策下一步行动。该算法实现的关键在于Q-table的建立与更新，该表如下所示：a
复制链接

扫一扫

专栏目录