初探强化学习(12)各种类型强化学习算法的流程图，用于对比分析

难受啊！马飞...

已于 2022-03-27 15:11:49 修改

阅读量5.1k

点赞数

分类专栏：强化学习文章标签：强化学习

于 2022-03-27 13:30:13 首次发布

本文链接：https://blog.csdn.net/qq_33328642/article/details/123770570

版权

强化学习专栏收录该内容

25 篇文章

订阅专栏

本文详细介绍了三种强化学习算法：Q-learning、SARSA及Dyna类型算法的基本原理与实现方式。对比分析了Q-learning与SARSA的区别，并对Dyna-Q及Dyna-2的模型结合方式进行了阐述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Q-learning

在这里插入图片描述
建立一个Q Table来保存状态s和将会采取的所有动作 $a$ ， $Q (s, a)$ 。在每个回合中，先随机初始化第一个状态，再对回合中的每一步都先从Q Table中使用ϵ−贪婪基于当前状态 $s$ （如果Q表没有该状态就创建 $s - a$ 的行，且初始为全0）选择动作 $a$ ，执行 $a$ ，然后得到新的状态 $s ’$ 和当前奖励r，同时更新表中 $Q (s, a)$ 的值，继续循环到终点。整个算法就是一直不断更新 Q table 里的值，再根据更新值来判断要在某个 state 采取怎样的 action最好。

2. SARSA

在这里插入图片描述
同样建立一个Q Table来保存状态 $s$ 和将会采取的所有动作 $a$ ， $Q (s, a)$ 。在每个回合中，先随机初始化第一个状态，再对回合中的每一步都先从Q Table中使用 $ϵ - g r e d d y$ 基于当前状态 $s$ （如果Q表没有该状态就创建 $s - a$ 的行，且初始为全0）选择动作 $a$ ，执行 $a$ ，然后得到新的状态 $s ’$ 和当前奖励 $r$ ，同时再使用 $ϵ - g r e d d y$ 得到在 $s ’$ 时的 $a ’$ ，直接利用 $a ’$ 更新表中 $Q (s, a)$ 的值，继续循环到终点。

相比之下，Q-Learning是贪婪的，在更新Q时会先不执行动作只更新，然后再每次都会选max的动作，而sarsa选了什么动作来更新Q就一定执行相应的动作。这就使它不贪心一昧求最大，而是会稍稍专注不走坑，所以sarsa相对来说十分的胆小，掉进坑里面下次争取会避免它（而Q不管，每次都直接向着最小的反向学习。）不管因为Sarsa太害怕坑，而容易陷入一个小角落出不来。

3. Dyna类型算法

在这里插入图片描述
由于不可能精确和完美的拟合真正环境，纯基于模型的强化学习效果往往很差。那有没有什么办法可以在一定程度上避免这一点呢？
那就把基于模型 + 不基于模型的强化学习结合起来吧！也就是Dyna算法框架了。
它既在模型中学习，也在交互中学习。即Dyna框架在每个迭代轮中，会先和环境交互，并更新价值函数、策略函数，接着进行n次模型的模拟预测，同样更新价值函数、策略函数。这样同时利用上了和环境交互的经历以及模型的预测。

根据描述，就需要有两个相互独立的模型，一个根据状态 $s$ 和动作 $a$ 得到下一个状态 $s ’$ （策略函数），另一个根据当前状态 $s$ 和动作 $a$ 预测环境的奖励 $r$ （价值函数）。其中

从 $s, a$ 学习 $r$ 的预测过程是一个回归问题(regression problem)。
从 $s, a$ 学习 $s ’$ 的选择过程是一个密度估计问题(density estimation problem)。

3.1 Dyna-Q

在这里插入图片描述

先初始化状态 $s$ 和其任意动作 $a$ 所对应的状态价值 $Q (s, a)$ 。
初始化尝试要理解得到的模型 $M o d e l (s, a)$ 。
对于每一轮迭代，先根据当前状态和 $Q (S, A)$ 用 $ϵ - g r e d d y$ 的方式得到新状态S’和奖励R
然后用Q-Learning更新价值函数 $Q (S, A)$
用 $R$ ， $S ’$ 更新模型 $M o d e l (s, a)$ (这边是表格型强化学习，所以一般是用字典的形式存储R和S，一般情况下，可以使用神经网络来训练这个 $M o d e l (s, a)$ )
（与真实环境交互完毕后，进行n次模拟）
- 每次模拟都随机选择一个之前出现过的状态 $S$ , 并在此基础上随机选择一个动作 $A$
- 基于模型 $M o d e l (S, A)$ 得到 $S^′$ 和 $R$ （这边可以理解成查表，根据key从字典中查招对应的值）
- 再使用Q-Learning更新价值函数： $Q(S,A)=Q(S,A)+α[R+γmax_{a}Q(S^′,a)−Q(S,A)]$

3.2 Dyna-2

Dyna-2是将环境交互的经历以及模型的预测进行了分离。即不是像Dyna一样交互完了就拿来模模拟，而是对于Q函数将被分为永久性记忆 $Q (S, A)$ 和瞬时记忆 $Q^′(S,A)$ 。其中永久性记忆利用与实际环境的交互经验来更新，瞬时记忆利用与模型的模拟交互来更新。然后两者结合起来共同对作用起选择。
在这里插入图片描述

初始化运动模型和Reward函数
清除永久性记忆 $θ$ （值函数所对应的参数）
对于每一轮迭代，从s0开始一次探索，然后每个episode都需要清除一次瞬时记忆 $θ$ （短期记忆），资格迹
$z$ （eligibility trace）
对于每个episode的初始状态，执行一次模拟（即用当前的模型执行模拟来更新值函数，和选择一个动作 $a$ ）
执行动作 $a$ 后得到奖励和新状态 $s ’$ ，再利用新状态 $s ’$ ，动作 $a$ 和 $r$ 更新模型以完成对模型的拟合
利用新模型再从 $s ’$ 状态开始进行模拟：更新值函数–>选择下一步 $a ’$ –>计算永久记忆的值函数TD–>更新永久记忆值函数参数和资格迹
$s$ = $s ‘$ ， $a$ = $a ’$
继续循环

4.3 Deep Dyna Q

在这里插入图片描述

4. DQN

4.1 DQN-2013

DQN（Deep Q-Network）是深度强化学习（Deep Reinforcement Learning）的开山之作，将深度学习引入强化学习中，构建了 Perception 到 Decision 的 End-to-end 架构。DQN 最开始由 DeepMind 发表在 NIPS 2013，后来将改进的版本发表在 Nature 2015。

深度学习是监督学习，需要有标签数据来计算损失函数，通过梯度下降和误差反向传播来更新神经网络的参数，那在强化学习中如何获得标签呢

在Q-learning 中，我们用 $R_{t+1}+γmax_{a}Q(S_{t+1},a)$ 来更新 Q 值，在这里我们可以将其作为标签 Q 值（Target Net）：
$R_{t+1}+γmax_{a}Q(S_{t+1},a|θ)$