强化学习笔记

马尔可夫奖励过程的价值函数定义:
在这里插入图片描述
MRP的贝尔曼方程:
在这里插入图片描述在这里插入图片描述
马尔可夫决策过程MDP
在这里插入图片描述
策略:是在给定的状态下执行的动作的分布,它完全定义了agent的行为。在这里插入图片描述
MDP的状态-价值函数是开始在状态S,执行策略Π的期望回报:
在这里插入图片描述
在这里插入图片描述
MDP的动作-价值函数是开始在状态S,采取动作a,然后执行策略Π的期望回报:
在这里插入图片描述
在这里插入图片描述

贝尔曼方程: 状态-价值函数分解为当前的即时奖励+下一个状态的折扣奖励(动作-价值函数类似):

在这里插入图片描述在这里插入图片描述

强化学习Agent学习的两种方案:
一:基于价值(value-based) 确定性策略,Sarsa、Q-learning、DQN
二:基于策略(policy-based) 随机性策略, policy gradient
所谓确定性策略,是只在某种状态下要执行的动作是确定即唯一的,而非确定性动作在每种状态下要执行的动作是随机的,可以按照一定的概率值进行选择。
在这里插入图片描述
在这里插入图片描述

sarsa算法
在迭代的时候,我们首先基于ϵ−贪婪法在当前状态SS选择一个动作A,这样系统会转到一个新的状态S′, 同时给我们一个即时奖励R, 在新的状态S′,我们会基于ϵ−贪婪法在状态S‘′S‘′选择一个动作A′,但是注意这时候我们并不执行这个动作A′,只是用来更新的我们的价值函数,
在这里插入图片描述
假如我们遇到复杂的状态集合呢?甚至很多时候,状态是连续的,那么就算离散化后,集合也很大,此时我们的传统方法,比如Q-Learning,根本无法在内存中维护这么大的一张Q表。
一个可行的建模方法是价值函数的近似表示。方法是我们引入一个状态价值函数v, 这个函数由参数ww描述,并接受状态s作为输入,计算后得到状态s的价值
在这里插入图片描述
在这里插入图片描述
DQN=Q-learning+神经网络
DQN两大创新点:
1.经验回放:解决(序列决策样本关联和样本利用率低的问题)
2.固定Q目标:解决算法的非平稳性
在这里插入图片描述
Sarsa、Q-Learning 和 DQN 算法都是基于价值的方法,也就是先计算每个状态对应的动作的 Q 值,再选择 Q 值最大的动作执行而 Policy Gradient 是一种更加直接的方式,它直接计算每个状态对应的动作或者动作的概率。这样做的优点就是它可以在一个连续区间内选取动作。
Policy Gradient 算法就是对策略函数进行建模,然后用梯度下降更新网络的参数。但是在强化学习中并没有实际的损失函数,而 PG 算法的目的是最大化累计奖励的期望值,所以可以将损失函数设为:
l o s s = − E [ log ⁡ [ π ( a ∣ s ) ] ⋅ Q ( s , a ) ] 可以理解为如果一个动作的奖励值较大,则下次选取该动作的可能性增加的幅度也大,反之选取该动作的可能性增加的幅度小。
但是因为策略 π 不易求得,所以可以将其改写为
l o s s = − E [ log ⁡ [ p θ ( τ ) ] ⋅ R ( τ ) ],其中 pθ(τ) 是轨迹 τ 出现的概率, R ( τ )是轨迹 τ 的总奖励值。因此,策略梯度的直观含义是增大高回报轨迹的概率,降低低回报轨迹的概率。
根据采样方式的不同可以分为两种情况,第一种是基于蒙特卡洛的方式,此时会采一个回合(episode)的样本然后计算 loss;第二种是基于 TD 的方式,此时会采单步的样本然后计算 loss。前一种的代表是 REINFORCE 算法,后一种的代表是 Actor-Critic 算法。
推导:
在这里插入图片描述
在这里插入图片描述

连续动作空间上的RL

Actor-Critic算法小结
在DDPG中,因为采用actor-critic架构,所以有actor和critic两个部分。此外,因为借鉴DQN的思想,所以有四个神经网络。即:critic部分有两个神经网络,target network Q’ 和 critic network Q;actor部分有两个神经网络:target network u’ 和 actor network u 。
在这里插入图片描述
为了便于理解DDPG算法,结合算法框架和之前的解释,将四个神经网络的公式、输入、输出以及相互之间的关系制作成表格,主要关注点在于上面算法结构中不容易被关注到的一些细节,参考链接
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值