强化学习
文章平均质量分 85
然后就去远行吧
我们的目标是星辰大海~
展开
-
强化学习小笔记 —— 如何选择合适的更新步长
如果我们使用固定步长,智能体将更好地适应这些变化,因为它会持续地从新的经验中学习,而不是逐渐降低学习速率。因此,我们对最新的观测不太重视,对特定动作的动作值的估计会随着时间的推移而逐渐稳定下来。在一个随时间变化的环境中,我们通常设置固定的步长,避免模型过分依赖过去的经验。在某些情况下,我们希望使用不会随时间减小的固定不长,例如,固定的步长。这意味着,如果最近观测到的奖励大于当前的估计值,我们会向上修改行动值的估计值。项,随着我们进行更多的观测,我们调整估计的比率将变小(公式中的。,继而获得新的估计值。原创 2023-11-23 21:06:38 · 665 阅读 · 0 评论 -
Dueling Network
从图9中可以看出,在传统DQN中,DQN的神经网络直接输出Q函数的值,即某个状态下不同动作对应的动作价值,输出层的前一层是全连接层。Dueling Network对DQN的结构改进主要在全连接层上,它在全连接层和输出层之间进行修改,将全连接层改为两条流,其中一条输出关于状态的价值,另外一条输出关于动作的优势函数的值,最终将两条流合并得到Q动作价值。所以优势函数表示的是当前动作值函数相比于当前状态值函数的优势,如果优势值大于零,表示当前动作比平均动作好,如果优势函数值小于0,表示当前动作比平均动作差。原创 2023-08-06 21:07:43 · 530 阅读 · 0 评论 -
强化学习 —— 广义优势估计GAE
GAE的原理是将这些不同步数的优势估计进行指数加权平均,这里先通过简单的例子介绍一下指数加权平均。趋向于1时,GAE会考虑更多步差分的平均值。下面是一段GAE的实现代码,给定折扣系数。即只看到一步差分得到的优势值,当。简单解释一下上面的公式,根据。可以通过类似的方法推导得到。是在GAE中引入的超参数。表示时序差分误差,公式中的。将上面公式进行转换可以得到。表示可调节的超参数值。原创 2023-08-06 18:15:10 · 1910 阅读 · 0 评论