RL学习日志
文章平均质量分 88
记录关于强化学习的内容
@白圭
积沙成塔
展开
-
RL学习日志2-----Q-learning、Sarsa、DQN、Policy Gradients公式分析
首先,我们需要建立一个全零的Q表,然后让模型以ξ-greedy的概率选择exploitation(最优)或者是exploration(随机探索)。更新Q表的方法如上图的公式,新的。具体而言,对于Q-learning算法,可以在每一次Q值更新完后,按照ξ-greedy的概率选取下一步的动作。上方的公式是DQN损失函数的定义,可以看出这就是Q-learning中的ΔQ。在计算ΔQ也就是网络中的损失函数时,我们的。,Q表类似于神经网络中的系数矩阵W和b,另一方面,模型在不断运行的过程中,的损失值,我们的目标是。原创 2022-10-01 16:55:31 · 579 阅读 · 0 评论 -
RL学习日志1-------基本概念与类型
强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。的核心是基于一个状态、动作和价值对应关系的Q表,表示了在S状态下采取动作A所可以获得的奖励值大小,在确定了每一步的奖励值之后,不难得出问题的最优解法。的全称是 Deep-Q-Network,就是将Q-learning方法中的Q表用神经网络的参数矩阵W和偏置B来替代,用于完成更为复杂的学习任务。一样完成连续的动作。原创 2022-09-30 20:20:09 · 443 阅读 · 0 评论