强化学习笔记

最新推荐文章于 2022-03-11 18:00:14 发布

朱家小旺

最新推荐文章于 2022-03-11 18:00:14 发布

阅读量191

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_36025591/article/details/109518513

版权

深度学习专栏收录该内容

3 篇文章 2 订阅

订阅专栏

马尔可夫奖励过程的价值函数定义：
在这里插入图片描述
MRP的贝尔曼方程：

马尔可夫决策过程MDP

策略：是在给定的状态下执行的动作的分布，它完全定义了agent的行为。
MDP的状态-价值函数是开始在状态S，执行策略Π的期望回报：

MDP的动作-价值函数是开始在状态S，采取动作a，然后执行策略Π的期望回报：
在这里插入图片描述

贝尔曼方程：状态-价值函数分解为当前的即时奖励+下一个状态的折扣奖励（动作-价值函数类似）：

在这里插入图片描述

强化学习Agent学习的两种方案：
一：基于价值（value-based) 确定性策略，Sarsa、Q-learning、DQN
二：基于策略（policy-based）随机性策略， policy gradient
所谓确定性策略，是只在某种状态下要执行的动作是确定即唯一的，而非确定性动作在每种状态下要执行的动作是随机的，可以按照一定的概率值进行选择。
在这里插入图片描述

sarsa算法
在迭代的时候，我们首先基于ϵ−贪婪法在当前状态SS选择一个动作A，这样系统会转到一个新的状态S′, 同时给我们一个即时奖励R, 在新的状态S′，我们会基于ϵ−贪婪法在状态S‘′S‘′选择一个动作A′，但是注意这时候我们并不执行这个动作A′，只是用来更新的我们的价值函数，
在这里插入图片描述
假如我们遇到复杂的状态集合呢？甚至很多时候，状态是连续的，那么就算离散化后，集合也很大，此时我们的传统方法，比如Q-Learning，根本无法在内存中维护这么大的一张Q表。
一个可行的建模方法是价值函数的近似表示。方法是我们引入一个状态价值函数v, 这个函数由参数ww描述，并接受状态s作为输入，计算后得到状态s的价值
在这里插入图片描述

DQN=Q-learning+神经网络
DQN两大创新点：
1.经验回放：解决（序列决策样本关联和样本利用率低的问题）
2.固定Q目标：解决算法的非平稳性

Sarsa、Q-Learning 和 DQN 算法都是基于价值的方法，也就是先计算每个状态对应的动作的 Q 值，再选择 Q 值最大的动作执行。而 Policy Gradient 是一种更加直接的方式，它直接计算每个状态对应的动作或者动作的概率。这样做的优点就是它可以在一个连续区间内选取动作。
Policy Gradient 算法就是对策略函数进行建模，然后用梯度下降更新网络的参数。但是在强化学习中并没有实际的损失函数，而 PG 算法的目的是最大化累计奖励的期望值，所以可以将损失函数设为：
l o s s = − E [ log ⁡ [ π ( a ∣ s ) ] ⋅ Q ( s , a ) ] 可以理解为如果一个动作的奖励值较大，则下次选取该动作的可能性增加的幅度也大，反之选取该动作的可能性增加的幅度小。
但是因为策略 π 不易求得，所以可以将其改写为
l o s s = − E [ log ⁡ [ p θ ( τ ) ] ⋅ R ( τ ) ]，其中 pθ(τ) 是轨迹 τ 出现的概率， R ( τ )是轨迹 τ 的总奖励值。因此，策略梯度的直观含义是增大高回报轨迹的概率，降低低回报轨迹的概率。
根据采样方式的不同可以分为两种情况，第一种是基于蒙特卡洛的方式，此时会采一个回合（episode）的样本然后计算 loss；第二种是基于 TD 的方式，此时会采单步的样本然后计算 loss。前一种的代表是 REINFORCE 算法，后一种的代表是 Actor-Critic 算法。
推导：
在这里插入图片描述

连续动作空间上的RL

Actor-Critic算法小结
在DDPG中，因为采用actor-critic架构，所以有actor和critic两个部分。此外，因为借鉴DQN的思想，所以有四个神经网络。即：critic部分有两个神经网络，target network Q’ 和 critic network Q；actor部分有两个神经网络：target network u’ 和 actor network u 。
在这里插入图片描述
为了便于理解DDPG算法，结合算法框架和之前的解释，将四个神经网络的公式、输入、输出以及相互之间的关系制作成表格，主要关注点在于上面算法结构中不容易被关注到的一些细节，参考链接

朱家小旺

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记

马尔可夫奖励过程的价值函数定义：MRP的贝尔曼方程：马尔可夫决策过程MDP策略：是在给定的状态下执行的动作的分布，它完全定义了agent的行为。MDP的状态-价值函数是开始在状态S，执行策略Π的期望回报：MDP的动作-价值函数是开始在状态S，采取动作a，然后执行策略Π的期望回报：贝尔曼方程：状态-价值函数分解为当前的即时奖励+下一个状态的折扣奖励（动作-价值函数类似）：强化学习Agent学习的两种方案：一：基于价值（value-based) 确定性策略，Sarsa、Q-
复制链接

扫一扫