1.核心词汇
-
同策略(on-policy):要学习的智能体和与环境交互的智能体是同一个时对应的策略。
-
异策略(off-policy):要学习的智能体和与环境交互的智能体不是同一个时对应的策略。
-
重要性采样(important sampling):使用另外一种分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡洛方法结合使用,公式如下:
KaTeX parse error: Undefined control sequence: \[ at position 91: …x=E\_{x \sim q}\̲[̲f(x){\frac{p(x)…
我们在已知 q q q 的分布后,可以使用上式计算出从 p p p 这个分布采样 x x x 代入 f f f 以后得到的期望值。 -
近端策略优化(proximal policy optimization,PPO):避免在使用重要性采样时由于在 θ \theta θ 下的 KaTeX parse error: Expected 'EOF', got '\right' at position 34: …a\_{t} | s\_{t}\̲r̲i̲g̲h̲t̲) 与在 θ ′ \theta ' θ′ 下的 p _ θ ′ ( a _ t ∣ s _ t ) p\_{\theta'}\left(a\_{t} | s\_{t}\right) p_θ′(a_t∣s_t) 相差太多,导致重要性采样结果偏差较大而采取的算法。具体来说就是在训练的过程中增加一个限制,这个限制对应 θ \theta θ 和 θ ′ \theta' θ′ 输出的动作的KL散度,来衡量 θ \theta θ 与 θ ′ \theta' θ′ 的相似程度。
2.常见问题汇总
2.1 基于同策略的策略梯度有什么可改进之处?或者说其效率较低的原因在于什么?
经典策略梯度的大部分时间花在数据采样上,即当我们的智能体与环境交互后,我们就要进行策略模型的更新。但是对于一个回合我们仅能更新策略模型一次,更新完后我们就要花时间重新采样数据,然后才能再次进行如上的更新。
所以我们可以使用异策略的方法,即使用另一个不同的策略和演员,与环境进行交互并用所采样的数据进行原先策略的更新。这样等价于使用同一组数据,在同一个回合,我们对整个策略模型更新了多次,这样会更加有效率。
2.2 使用重要性采样时需要注意的问题有哪些?
我们可以在重要性采样中将 p p p 替换为任意的 q q q,但是本质上要求两者的分布不能差太多,即使我们补偿了不同数据分布的权重 p ( x ) q ( x ) \frac{p(x)}{q(x)} q(x)p(x) 。 KaTeX parse error: Undefined control sequence: \[ at position 14: E\_{x \sim p}\̲[̲f(x)\]=E\_{x \s… ,当我们对于两者的采样次数都比较多时,最终的结果会是较为接近的。但是通常我们不会取理想数量的采样数据,所以如果两者的分布相差较大,最后结果的方差将会很大。
2.3 基于异策略的重要性采样中的数据是从 θ ′ \theta' θ′ 中采样出来的,从 θ \theta θ 换成 θ ′ \theta' θ′ 有什么优势?
使用基于异策略的重要性采样后,我们不用 θ \theta θ 与环境交互,而是由另外一个策略 θ ′ \theta' θ′ 进行示范。 θ ′ \theta' θ′ 的任务就是示范给 θ \theta θ 看,它和环境交互,告诉 θ \theta θ 它与环境交互会发生什么事,以此来训练 θ \theta θ 。我们要训练的是 θ \theta θ , θ ′ \theta' θ′ 只负责做示范,负责与环境交互,所以采样出来的数据与 θ \theta θ 本身是没有关系的。所以就可以让 θ ′ \theta' θ′ 与环境交互采样大量数据, θ \theta θ 可以更新参数多次。一直到 θ \theta θ 训练到一定的程度、参数更新多次以后, θ ′ \theta' θ′ 再重新采样,这就是同策略换成异策略的妙处。
2.4 在本节中近端策略优化中的KL散度指的是什么?
本质来说,KL散度是一个函数,其度量的是两个动作(对应的参数分别为 t h e t a \\theta theta 和 t h e t a ′ \\theta' theta′ )间的行为距离,而不是参数距离。这里的行为距离可以理解为在相同状态下输出动作的差距(概率分布上的差距),概率分布即KL散度。
3.面试必知必答
3.1 友善的面试官:请问什么是重要性采样呀?
使用另外一种分布,来逼近所求分布的一种方法,算是一种期望修正的方法,公式如下:
KaTeX parse error: Undefined control sequence: \[ at position 97: …=E\_{x \\sim q}\̲[̲f(x){\\frac{p(x…
我们在已知 q q q 的分布后,可以使用上式计算出从 p p p 分布的期望值。也就可以使用 q q q 来对 p p p 进行采样了,即重要性采样。
3.2 友善的面试官:请问同策略和异策略的区别是什么?
我可以用一句话概括两者的区别,即生成样本的策略(价值函数)和网络参数更新时的策略(价值函数)是否相同。具体来说,同策略,生成样本的策略(价值函数)与网络更新参数时使用的策略(价值函数)相同。Sarsa算法就是同策略的,其基于当前的策略直接执行一次动作,然后用价值函数的值更新当前的策略,因此生成样本的策略和学习时的策略相同,算法为同策略算法。该算法会遭遇探索-利用窘境,仅利用目前已知的最优选择,可能学不到最优解,不能收敛到局部最优,而加入探索又降低了学习效率。 v a r e p s i l o n \\varepsilon varepsilon-贪心算法是这种矛盾下的折中,其优点是直接了当、速度快,缺点是不一定能够找到最优策略。异策略,生成样本的策略(价值函数)与网络更新参数时使用的策略(价值函数)不同。例如,Q学习算法在计算下一状态的预期奖励时使用了最大化操作,直接选择最优动作,而当前策略并不一定能选择到最优动作,因此这里生成样本的策略和学习时的策略不同,即异策略算法。
3.3 友善的面试官:请简述一下近端策略优化算法。其与信任区域策略优化算法有何关系呢?
近端策略优化算法借鉴了信任区域策略优化算法,通过采用一阶优化,在采样效率、算法表现以及实现和调试的复杂度之间取得了新的平衡。这是因为近端策略优化算法会在每一次迭代中尝试计算新的策略,让损失函数最小化,并且保证每一次新计算出的策略能够和原策略相差不大。换句话说,其为在避免使用重要性采样时由于在 θ \theta θ 下的 p _ t h e t a ( a _ t ∣ s _ t ) p\_{\\theta}\left(a\_{t} | s\_{t}\right) p_theta(a_t∣s_t) 与在 θ ′ \theta' θ′ 下的 p _ θ ′ ( a _ t ∣ s _ t ) p\_{\theta'}\left(a\_{t} | s\_{t}\right) p_θ′(a_t∣s_t) 差太多,导致重要性采样结果偏差较大而采取的算法。
最后
感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
五、面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】