Q-Learning强化学习Demo

最新推荐文章于 2024-03-29 19:55:12 发布

Jarek.Tan

最新推荐文章于 2024-03-29 19:55:12 发布

阅读量592

点赞数

分类专栏：机器学习文章标签：机器学习 python 强化学习

本文链接：https://blog.csdn.net/weixin_43095225/article/details/105589806

版权

强化学习及Q-Learning算法的简单理解

首先明确学习的概念，学习是系统为了适应环境而做出的长久的变化，以便在未来更有效率的处理类似的问题。
强化学习就是通过算法和训练，让程序的产生相应的变化，未来更好地处理类似问题。
Q-Learning就是其中一种简单的系统实现，通过Q-Table的不断更新，来产生长久的变化。

强化学习主要分为两部分：

学习系统本身(即学习程序)
环境(即学习程序要解决的问题所处的环境)

强化学习的流程：

系统判定当前状态，根据策略采取行动
系统获得环境的反馈
系统根据反馈，更新策略
重复上述步骤，直到问题解决

强化学习的特点：

强化学习是一种无监督学习
在状态S下，不同的行动A会有不同的反馈R
反馈R的获得，通常是有延时的
当前行动A，会对系统后续的行为产生影响

在强化学习中，通常用Q(S, A)来表示状态S下，采取动作A所带来的价值，所以这个算法就用Q-Learning作了它的名字。

Q-Learning核心思想：

关键点：状态、策略、行动、反馈

通过Q-Table来记录每个状态S可以采用的行动A，Q-Table是一个二维矩阵，每一行代表一个状态，每一列代表一个行动，Q(S,A)的值表示在状态S下，采取行动A的权重(或者说成是能取得的收益)。
特定的策略，在状态S下，通过Q-Table和策略，决定行动A；通常使用的策略是，在状态S下，找到Q(S, A)值最大的那一个A作为当前行动，为避免初始状态下的局部最优情况，通常还会引入随机性。
反馈的获得，可以通过「反馈表」或者是「反馈算法」来获得环境对行动A的反馈R(S, A)。R(S, A)表示在状态S下，采取行动A，获得的反馈。
策略更新，通过贝尔曼方程进行计算，更新Q-Table

核心概念：

状态-State，用S表示
行动-Action，用A表示
反馈-Reward，用R表示

以上图为例：

机器人娃娃的目标是到达楼梯顶部T

当前状态(即S)为3，
可采取的行动(即A)有"上"和"下"两种，
只有到达楼梯顶部时，我们给它的反馈(即R)为1，其他动作的即时反馈都为0(这个就是我们的反馈策略)
机器人娃娃不停的探索，直到它走到了T；每走一步，都会更新Q-Table；
走到T的这个动作所获得的奖励(Reward)，会在后面的训练过程中，逐渐传递到前面的每一个State(需要加入随机，不然会出现局部最优问题)。就像是你从台阶5走到台阶6的时候，会得到现金，那么你就会总想到达台阶5，以此类推。

我们可以像下面一样，构造一个Q-Table

状态	下	上
台阶1	0	0
台阶2	0	0
台阶3	0	0
台阶4	0	0
台阶5	0	0

初始值都为0，是因为开始的时候，每一步的价值对我们都是一样的
类似的，我们可以构造一个R-Table，用来查看我们每一个行动带来的价值，即反馈R

状态	下	上
台阶1	-1	0
台阶2	0	0
台阶3	0	0
台阶4	0	0
台阶5	0	1

R-Table中，R(台阶1，下)的值为-1，表示这个动作不可执行
R(台阶5，上)的值为1，因为这个动作让我们到达了目标
根据上面的两个表，我们不停的采取行动，然后根据获得的反馈更新Q-Table，直到我们可以得到一个训练好的Q-Table，通过这个Q-Table，机器人娃娃就能以最效率的方式到达目的地。

Q-Table更新公式：

$A)=(1-\alpha)Q(S, A)+\alpha[R(S, A) + \gamma\mathop{}_{A^{'}}^{max}Q(S^{'}, A^{'})]$

最低0.47元/天解锁文章

Jarek.Tan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Q-Learning强化学习Demo

强化学习及Q-Learning算法的简单理解首先明确学习的概念，学习是系统为了适应环境而做出的长久的变化，以便在未来更有效率的处理类似的问题。强化学习就是通过算法和训练，让程序的产生相应的变化，未来更好地处理类似问题。Q-Learning就是其中一种简单的系统实现，通过Q-Table的不断更新，来产生长久的变化。强化学习主要分为两部分：学习系统本身(即学习程序)环境(即学习程序要解决...
复制链接

扫一扫

专栏目录