![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 71
xueyongfu
这个作者很懒,什么都没留下…
展开
-
强化学习基础
1. 价值迭代是贪心更新法2. 策略迭代中,用Bellman等式更新价值函数代价很大3. 对于空间较小的MDP,策略迭代通常很快收敛4. 对于空间较大的MDP,价值迭代更实用(效率更高)5. 如果没有状态转移循环,最好使用价值选代R%28s%29%5Cpi%5Cpi。原创 2023-12-16 20:42:43 · 1405 阅读 · 1 评论 -
Actor-Critic(AC)、A2C、A3C
A3C将actor与环境的交互变成了异步的,每个worker可以分别与环境进行交互,并进行参数更新,更新完之后需要梯度更新到global network,并拉取最新的global network的参数替换掉worker的参数。我们将AC需要学习三个网络(Q函数,V函数,策略网络)优化成了只需要学习V函数和策略网络。是非常不稳定的,只有当采样丰富的样本时,才可以获得接近真实的G值,但是现实情况往往不能采样足够丰富的样本。Q值:S状态下有若干个动作,每个动作的Q值,就是从这个动作之后所获得的奖励总和的期望值。原创 2023-12-16 00:08:03 · 74 阅读 · 1 评论 -
SARSA、Q-learning
Q-learning时value-based的方法,学习的不是policy,而是critic,critic并不直接决定action,而是评估一个actor有多么的好。通过把state输入到值网络中,从而得到累计奖励。值网络的学习可以使用Monte-Carlo方法,需要进行完整个game,然后计算某个state对应的累计奖励,然后最小化该累计奖励和值网络输出值,从而学习值网络模型。值网络的学习也可以使用Temporal-difference(TD)方法。输入到值网络得到的累计激励,与。原创 2023-12-15 23:03:41 · 430 阅读 · 0 评论 -
Proximal Policy Optimization(PPO)
如下图所示,q(x)分布的采样值更多的落在右半边区域,在采样次数较少的情况下,期望是正值,与p(x)采样得到的期望值是负值的结果不符,但是,当采样次数较多时,q(x)也会采样到左半边区域的值,此时p(x)/q(x)值比较大,使得计算的期望是负值,与p(x)采样得到的期望值是负值的结果相符。使用重要性采样,期望值相等,当p(x)与q(x)的分布接近时,二者方差的差异较小,因此在使用重要性采样时,两个分布的差异应当比较小。因此可以得出:当p(x)和q(x)分布差异较大时,需要更多的采样才能逼近正确的结果。原创 2023-12-15 17:21:45 · 57 阅读 · 0 评论 -
Policy Gradient(策略梯度)
训练时需要先初始化policy,然后采样一个episode的数据,更新policy模型参数,基于新policy采样得到新的episode数据,再更新policy模型参数,持续迭代下去。使用场景中,reward一般是正的,由于action是随机采样的,造成一些action未被采样到,那么该未被采样到的action归一化之后的概率偏低,与实际情况不符。的发生概率,即给定环境s,基于policy产生动作a,然后达到新环境,并获取一定的reward,循环执行下去,直到该episode结束,计算得到总概率。原创 2023-12-15 14:30:51 · 68 阅读 · 0 评论