目录
一、强化学习
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。
二、强化学习的常见类型
1.Q-learning
Q-learning的核心是基于一个状态、动作和价值对应关系的Q表,表示了在S状态下采取动作A所可以获得的奖励值大小,在确定了每一步的奖励值之后,不难得出问题的最优解法。其表如下所示
2.Sarsa与Sarsa(λ)
Sarsa的基本方法与Q-learning一致,建立状态、动作和价值对应的Q表,然后依据Q表进行决策,通过反馈不断改进自身的行为模式。唯一不同的是,迭代公式中Sarsa的估计值就是所采取的实际行动(将在公式推导中具体说明)。这样的改动使得Sarsa相对于Q-learning更为保守,趋利避害的特征更为明显。下表与Q-learning相同。
Sarsa(λ) 是Sarsa在回合更新的基础上给靠近奖励的动作赋予权重λ,权重从获得奖励的前一步到最初的一步逐渐递减,表示动作的不同重要程度。
(不难理解,在整个探索过程中,越靠近奖励的动作越具有价值)
(单步更新:没走一步更新一次Q表的值、回合更新:当最终获得奖励时更新Q表的值)
3.DQN
DQN 的全称是 Deep-Q-Network,就是将Q-learning方法中的Q表用神经网络的参数矩阵W和偏置B来替代,用于完成更为复杂的学习任务。如下图所示
4.Policy Gradients --策略梯度
Policy Gradients是一种基于概率的强化学习方法,与之前的Q-learning系列不同(Q-learning系列基于价值)。具体而言,Policy Gradients的下一个动作是在一系列不同概率的动作中随机选取一个,而Q-learning则是默认选择价值反馈最大的动作。Policy Gradients的独特方法使得它可以对一个连续的过程进行判断并做出动作,这是Q-learning很难做到的。对于反向传播,当动作获得的奖励是正向时,大幅度加大该动作的频率,而奖励是负向时,小幅增大该动作的频率。
5.Actor-Critic --演员评论家
Actor-Critic可以理解为Q-learning和Policy Gradients的结合版本。Critic类似于Q-learning对于模型做出的每一个动作进行打分,而Actor像Policy Gradients一样完成连续的动作。
本文参考资料-----【莫烦Python】强化学习 Reinforcement Learning 系列教程