强化学习复习笔记

Outline

Actor-Critic

优势函数

自然策略梯度

策略梯度算法总结

 

Actor-Critic

学习价值函数,也学习策略。

使用Critic减少方差:

蒙特卡洛策略梯度具有高方差。

使用critic来评估动作- 价值函数:

Actor-critic 算法包含两组参数:
Critic 更新动作 -价值函数参数 w
Actor 更新策略参数 θ, 更新方向由 critic 提供

使用近似策略梯度:

Critic 的作用是: 策略评估

当前参数 θ 下策略 πθ 的表现如何?

例如 蒙特卡洛策略评估 时间差分学习 TD(λ)

也可以使用例如最小二乘策略评估法

 

基于动作 -价值的 Actor-Critic 

 

 

使用线性价值函数逼近器Qw(s, a) = ϕ(s, a)Tw Critic线性TD(0)更新w,Actor策略梯度更新θ

 

使用逼近的方法计算策略梯度会引入偏差 ,带有偏差的策略梯度不一定能学到正确的解。

如果选择合理的价值函数逼近器,可以有效避免偏差问题,也就是说仍然能沿着正确的策略梯度训练 。

 

兼容的函数逼近

定理

如果下面两个条件能够满足:
1 价值函数逼近器对策略是兼容的

 

2 价值函数的参数 w 最小化均方误差

 


那么基于价值的策略梯度和真实的策略梯度是相同的

 

证明 :

如果一组参数 w 能够最小化均方误差, 那么 ε 关于 w 的梯度一 定等于零

所以 Qw(s, a) 能够直接代入到策略梯度公式中

 

 

Actor(玩家):为了玩转这个游戏得到尽量高的reward,需要一个策略:输入state,输出action,即上面的第2步。(可以用神经网络来近似这个函数。剩下的任务就是如何训练神经网络,得更高的reward。这个网络就被称为actor)

Critic(评委):因为actor是基于策略policy的所以需要critic来计算出对应actor的value来反馈给actor,告诉他表现得好不好。所以就要使用到之前的Q值。(当然这个Q-function所以也可以用神经网络来近似。这个网络被称为critic。)

 

Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。

Actor Critic 优点:可以进行单步更新, 相较于传统的PG回合更新要快。

Actor Critic 缺点:Actor的行为取决于 Critic 的Value,但是因为 Critic本身就很难收敛和actor一起更新的话就更难收敛了。

(为了解决收敛问题, Deepmind 提出了 Actor Critic 升级版 Deep Deterministic Policy Gradient,后者融合了 DQN 的优势,解决了收敛难的问题。)

 target一个是期望,一个是均方误差。

 

优势函数

使用基准 (Baseline) 减小方差:

在策略梯度公式中减去一个基准函数 B(s) ,这样可以在不改变期望的前提下有效减小方差。

 

 

 减去一个基准函数不会对结果训练目标有影响。

一个比较好的基准函数是状态价值函数 B(s) = Vπθ(s) 因此可以使用优势函数Aπθ(s, a) 重新定义策略梯度公式

 优势函数就是原来的Q函数减去一个基准函数

 

估计优势函数

优势函数可以明显减小策略梯度的方差(中心化)

所以 critic 应该以估计优势函数作为目标

例如同时估计 Vπθ(s) 和 Qπθ(s, a)

使用两个函数逼近器和两组参数向量

使用例如 TD 学习的方法同时对两个价值函数更新

 

对于真实的价值函数 Vπθ(s), TD 误差 δπθ

是关于优势函数的无偏估计

所以我们可以使用 TD 误差来计算策略梯度

在实际应用中会使用近似的 TD 误差

这种方法只需要一组 critic 参数 v

 

 

不同时间尺度的 Critics

Critic 可以从不同的时间尺度, 以多种目标来估计价值函数Vv(s)

回顾:
MC, 目标是回报 vt

TD(0), 目标是 TD 目标 r + γVv(s)

对前向 TD(λ), 目标是 λ-回报 Gλ t

对后向 TD(λ), 使用资格迹

 

不同时间尺度的 Actors

策略梯度同样可以在不同的时间尺度下进行估计

蒙特卡洛策略梯度法基于完整的回报计算误差

Actor-critic 策略梯度法使用一步 TD 误差

 

 

策略梯度 + 资格迹

和前向 TD(λ) 一样, 策略梯度可以混合使用不同的时间尺度

其中 Gλ t - Vv(st) 是关于优势函数有偏差的估计

同后向 TD(λ) 一样, 可以使用资格迹,使用 ϕ(s) = rθ log πθ(s, a) 替代原始 TD(λ) 算法

这种更新方式可以应用于在线问题, 非完整的序列

 

其它的策略梯度方差

梯度上升算法可以沿着任意一个上升的方向

一个好的上升方向可以显著加速收敛过程

一个策略可以使用不同的参数表示, 但是动作选择概率可以保持不变

例如在 softmax 策略中对所有的动作都增加它们的得分

基本梯度 (vanilla gradient) 法容易受这类多种参数表示的影响 

 

自然策略梯度

 

自然策略梯度和参数独立无关

它是对策略做一个微小, 固定的改变后, 寻找与基本梯度最接近的上升方向


其中 Gθ Fisher
信息矩阵

 

 

自然 Actor-Critic

使用兼容的函数逼近

 

所以自然策略梯度简化为

actor 参数的更新方向等于 critic 参数

 

策略梯度算法总结

策略梯度具有多种等价的表示形式

每种都可以对应一个随机梯度上升算法

Critic 使用策略评估 (例如 MC TD 学习法) 来估计Qπ(s, a), Aπ(s, a), Vπ(s

 

 

转载于:https://www.cnblogs.com/shona/p/10914974.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《数值分析第五版》是李庆扬编著的一本数值分析教材,本文简要回答关于该教材的复习笔记。 首先,《数值分析第五版》作为一本数值分析教材,主要介绍了数值分析的基本原理、方法和应用。它包含了数值计算的基本概念,如误差分析、数值计算中的近似、插值与逼近、数值积分与数值微分等等。从宏观上看,本书的内容分为十章,每一章都有自己的主题和内容,从而系统地介绍了数值分析的各个方面。 在复习笔记方面,我会根据教材的章节内容进行总结。首先,我会概述每个章节的主题和基本知识点,然后列举重点部分和公式。接下来,我会回顾章节中的案例分析和实例,以便更好地理解和记忆相关概念和方法。此外,我还会复习每个章节的习题,并尝试解答其中的难题,以提升自己的理解和应用能力。 在复习过程中,我将注重理论和实践的结合。除了理解和记忆教材中的概念和方法,我还会进行一些数值计算和编程实验,以提高自己的实际操作能力。此外,我也会查阅相关的参考书籍和资料,深入了解一些复杂的概念和应用。 总的来说,《数值分析第五版》是一本全面而系统的数值分析教材,具备一定的理论深度和丰富的实践案例。在复习过程中,我将注重基础知识的梳理和强化,同时注重实际能力的提升。通过全面复习和巩固,《数值分析第五版》能够帮助我更好地理解和应用数值分析的方法和原理。 ### 回答2: 《数值分析第五版(李庆扬编著)期末复习笔记.docx》是一份期末复习笔记,主要涵盖了数值分析的内容。数值分析是一门研究数值计算方法的学科,旨在通过数值计算方法解决实际问题。笔记中可能包含以下内容: 1. 数值计算方法的基础知识:包括数值误差、截断误差和舍入误差等概念,以及数字表示和舍入规则等。 2. 插值与逼近方法:包括拉格朗日插值多项式、牛顿插值多项式等插值方法,以及最小二乘逼近、切比雪夫逼近等逼近方法。 3. 数值微积分:包括数值求导和数值积分的方法,如梯形规则、辛普森规则等。 4. 非线性方程的数值解法:包括二分法、牛顿法、弦截法等求解非线性方程的数值方法。 5. 线性方程组的数值解法:包括高斯消元法、LU分解法、迭代法等求解线性方程组的数值方法。 6. 线性最小二乘问题的数值解法:包括正规方程法、QR分解法等求解线性最小二乘问题的数值方法。 《数值分析第五版(李庆扬编著)期末复习笔记.docx》可能通过列举相关理论、公式和示例来说明各种数值计算方法的原理和应用。读者可以通过学习这份复习笔记来加深对数值分析相关知识的理解,为期末考试做好准备。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值