Q-learning算法

最新推荐文章于 2024-06-20 18:23:56 发布

White__River

最新推荐文章于 2024-06-20 18:23:56 发布

阅读量1.2k

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/White__River/article/details/129814281

版权

Q-learning是一种强化学习算法，通过Q函数估计在特定状态下执行动作的预期累积奖励。它使用动态规划原理，但通过时序差分学习避免了对完整未来轨迹的知晓。最优Q函数对应于最佳策略，且在更新过程中采用ε-贪婪策略平衡探索与利用。Q-learning是一种off-policy方法，因为它学习的策略不同于执行的策略。

摘要由CSDN通过智能技术生成

Q-learning算法

在Q-learning中，Q的意思是Q函数，即某个策略 $\pi$ 下的动作价值函数 $Q^\pi(s_t, a_t)$ , 他表示在状态 $s_t$ 下, 执行动作 $a_t$ 会带来的累计奖励 $G_t$ 的期望
$\begin{split} Q^\pi(s_t, a_t) &= \mathbb{E}[G_t|s_t, a_t] \\ &=\mathbb{E}[r_t + \gamma Q^\pi(s_{t+1}, a_{t+1})|s_t, a_t] \end{split}$
给定策略下, 当前状态的Q函数值与

当前动作的奖励
下一状态的Q函数值

有关

因此, Q函数的计算可以通过动态规划算法来实现.

但由于计算t时刻的Q函数是,需要知道未来时刻的奖励,这样就
“不仅需要知道某一状态的所有可能出现的后续状态及对应的将离职,还要进行全宽度的回溯来更新该状态的价值”, 对于大规模问题,这样的做法几乎是不可能使用的, 因此Q-learning使用了浅层的时序差分采样学习.

也就是基于当前策略 $\pi$ 预测接下来发生的n步动作,并计算其奖励值, 以计算累计奖励.

在Q-learning中, 最优策略 $\pi^{*}$ 对应的最优Q函数满足
$Q^*(s_t,a_t) = \max_{\pi} Q^\pi(s_t, a_t) = \mathbb{E}{s_{t+1}}[r_t+\gamma\ \max_{a_{t+1}}Q^{\pi}(s_{t+1}, a_{t+1})|s_t, a_t]$
其中 $Q^*(s_t,a_t) = Q^{\pi^*}(s_t,a_t)$

Q-learning在学习过程中不断更新Q值, 但采用的是类似梯度下降的方式
$Q^*(s_t,a_t) \leftarrow Q^*(s_t,a_t)+ \alpha(r_t+\gamma\ \max_{a_{t+1}}Q^{*}(s_{t+1}, a_{t+1}- Q^*(s_t,a_t))$

这就是Q-learning用于更新价值(动作价值)的策略.

而对于具体选择动作的策略, Q-learning一般采用 $\epsilon$ -贪婪策略.

由于采取动作的策略( $\epsilon$ -贪婪策略)和更新价值的策略(渐进式更新)不同, 因此Q-learning是一种off-policy策略.

White__River

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Q-learning算法

不仅需要知道某一状态的所有可能出现的后续状态及对应的将离职,还要进行全宽度的回溯来更新该状态的价值”, 对于大规模问题,这样的做法几乎是不可能使用的, 因此Q-learning使用了浅层的时序差分采样学习.-贪婪策略)和更新价值的策略(渐进式更新)不同, 因此Q-learning是一种off-policy策略.Q-learning在学习过程中不断更新Q值, 但采用的是类似梯度下降的方式。但由于计算t时刻的Q函数是,需要知道未来时刻的奖励,这样就。在Q-learning中，Q的意思是Q函数，即某个策略。
复制链接

扫一扫