Q-learning
- 状态和动作空间离散,数量少,可选择Q-learning算法。
- Q学习是一种异策略,有两种不同的策略:目标策略和行为策略。目标策略是需要去学习的策略,根据经验来学习最优的策略,不需要和环境进行交互。行为策略是探索环境的策略。
- 目标策略直接在Q表格上使用贪心策略取它下一步能得到的所有状态。
- 行为策略可以是一个随机的策略,但是可以采用ε-贪心策略,让行为不至于是完全随机的,而是基于Q-表格逐渐改进的。
- 在每个时间步,智能体执行一个动作后,环境会给予智能体一个奖励信号,表示这个动作的好坏。
- Q值函数是Q学习的核心,它表示在给定状态下采取特定动作所获得的期望累积奖励。Q值通常表示为Q(s, a),其中s表示状态,a表示动作。
算法步骤
- 算法参数:步长大小α∈(0,1],一个很小的值ε>0.
- 对于所有的s∈S,a∈A(s),随机初始化Q(s, a),除非Q(终点,·)=0.
- 对每一个回合进行循环
使用从Q中衍生出来的策略(例如ε-贪心策略)从s中选择a。
执行a,观测r, s’.
s ← s’ - 直到s到达终点。