看李宏毅老师PPO笔记

最新推荐文章于 2024-07-09 20:54:09 发布

Cindy has a Way

最新推荐文章于 2024-07-09 20:54:09 发布

阅读量393

点赞数

分类专栏：读书笔记文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_39448417/article/details/117660317

版权

本文详细介绍了强化学习中的策略梯度方法PPO，包括环境、策略网络、奖励函数的概念，强调策略网络通过调整参数以获得最大奖励。文章讨论了轨迹、概率计算、期望奖励、梯度上升及策略更新，并提出了加入baseline和优势函数以优化训练过程。

摘要由CSDN通过智能技术生成

在这里插入图片描述
参考学习：https://github.com/datawhalechina/easy-rl

在强化学习里面，环境跟奖励函数不是你可以控制的，环境跟奖励函数是在开始学习之前，就已经事先给定的。你唯一能做的事情是调整Policy Network里面的策略(policy)，使得可以得到最大的奖励。Policy Network里面会有一个策略，这个策略决定了Policy Network的行为。策略就是给一个外界的输入，然后它会输出Policy Network现在应该要执行的行为。

在这里插入图片描述
网络的输入就是现在机器看到的东西，如果让机器打电玩的话，机器看到的东西就是游戏的画面。机器看到什么东西，会影响你现在训练到底好不好训练。举例来说，在玩游戏的时候，也许你觉得游戏的画面前后是相关的，也许你觉得你应该让你的策略，看从游戏初始到现在这个时间点，所有画面的总和。你可能会觉得你要用到 RNN 来处理它，不过这样子会比较难处理。要让你的机器，你的策略看到什么样的画面，这个是你自己决定的。让你知道说给机器看到什么样的游戏画面，可能是比较有效的。
上图就是具体的例子，
策略就是一个网络；
输入就是画面，它通常是由像素(pixels)所组成的；
输出就是看看说有哪些选项是你可以去执行的，输出层就有几个神经元。
假设你现在可以做的行为有 3 个，输出层就是有 3 个神经元。每个神经元对应到一个可以采取的行为。
输入一个东西后，网络就会给每一个可以采取的行为一个分数。你可以把这个分数当作是概率。Policy Network就是看这个概率的分布，根据这个概率的分布来决定它要采取的行为。比如说 70% 会向左走，20% 向右走，10% 开火等等。概率分布不同，Policy Network采取的行为就会不一样。

在这里插入图片描述

首先，环境是一个函数，游戏的主机也可以把它看作是一个函数，虽然它不一定是神经网络，可能是基于规则的(rule-based)规则，但你可以把它看作是一个函数。这个函数一开始就先吐出一个状态，也就是游戏的画面，接下来你的演员看到这个游戏画面 s_1s1 以后，它吐出 a_1a1，然后环境把 a_1a1 当作它的输入，然后它再吐出 s_2s2，吐出新的游戏画面。演员看到新的游戏画面，再采取新的行为 a_2a2，然后环境再看到 a_2a2，再吐出 s_3s3。这个过程会一直持续下去，直到环境觉得说应该要停止为止。
在一场游戏里面，我们把环境输出的 ss 跟演员输出的行为 aa，把 ss 跟 aa 全部串起来，叫做一个 Trajectory(轨迹)
你可以计算每一个轨迹发生的概率。假设现在演员的参数已经被给定了话，就是 \thetaθ。根据 \thetaθ，你其实可以计算某一个轨迹发生的概率，你可以计算某一个回合里面发生这样子状况的概率。
怎么算呢，如上式所示。在假设演员的参数就是 \thetaθ 的情况下，某一个轨迹 \tauτ 的概率就是这样算的，你先算环境输出 s_1s1 的概率，再计算根据 s_1s1 执行 a_1a1 的概率，这是由你策略里面的网络参数 \thetaθ 所决定的，它是一个概率，因为你的策略的网络的输出是一个分布，演员是根据这个分布去做采样，决定现在实际上要采取的动作是哪一个。接下来环境根据 a_1a1 跟 s_1s1 产生 s_2s2，因为 s_2s2 跟 s_1s1 还是有关系的，下一个游戏画面跟前一个游戏画面通常还是有关系的，至少要是连续的，所以给定前一个游戏画面 s_1s1 和现在演员采取的行为 a_1a1，就会产生 s_2s2。

这个概率取决于两部分，
一部分是环境的行为，环境的函数内部的参数或内部的规则长什么样子。 p(s_{t+1}|s_t,a_t)p(st+1∣st,at)这一项代表的是环境，环境这一项通常你是无法控制它的，因为那个是人家写好的，你不能控制它。
另一部分是 agent 的行为。你能控制的是 p_\theta(a_t|s_t)pθ(at∣st)。给定一个 s_tst，演员要采取什么样的 a_tat 会取决于演员的参数 \thetaθ，所以这部分是演员可以自己控制的。随着演员的行为不同，每个同样的轨迹&#x

最低0.47元/天解锁文章

Cindy has a Way

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
看李宏毅老师PPO笔记

参考学习：https://github.com/datawhalechina/easy-rl在强化学习里面，环境跟奖励函数不是你可以控制的，环境跟奖励函数是在开始学习之前，就已经事先给定的。你唯一能做的事情是调整Policy Network里面的策略(policy)，使得可以得到最大的奖励。Policy Network里面会有一个策略，这个策略决定了Policy Network的行为。策略就是给一个外界的输入，然后它会输出Policy Network现在应该要执行的行为。网络的输入就是现在机器看.
复制链接

扫一扫