强化学习—Q-Learning
Q-Learning
Q-Learning 是一种基于值的强化学习算法,用于在不需要模型的情况下找到马尔可夫决策过程(MDP)的最优策略。它是一种离线学习方法,通过学习一个状态-动作值函数(即 Q 值),可以在不直接与环境交互的情况下改进策略。
Q-Learning的核心思想
Q-Learning 的目标是学习一个最优的动作值函数 ( Q^*(s, a) ),其中 ( s ) 是状态,( a ) 是动作。这个函数表示在状态 ( s ) 采取动作 ( a ) 后,按照最优策略能获得的期望累积奖励。
Q-Learning算法的工作流程
-
初始化:
- 初始化 Q 值表 ( Q(s, a) ) 为一个小的随机值或零。
- 选择初始状态 ( s_0 )。
-
选择动作:
- 根据当前状态 ( s ) 和 Q 值表选择动作 ( a ),通常使用 ε-贪婪策略(在探索与利用之间进行权衡)。
-
执行动作:
- 执行动作 ( a ),观察奖励 ( r ) 和下一个状态 ( s’ )。
-
更新Q值:
- 使用以下更新公式更新 Q 值:
Q ( s , a ) ← Q ( s , a ) + α [ r + γ max a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] 其中, α 是学习率, γ 是折扣因子, max a ′ Q ( s ′ , a ′ ) 表示在状态 s ′ 下选择的动作所能得到的最大未来奖励。 Q(s, a) \leftarrow Q(s, a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s, a)] \\其中,\alpha是学习率,\gamma是折扣因子,\max_{a'} Q(s', a')表示在状态 s' 下选择的动作所能得到的最大未来奖励。 Q(s,a)←Q(s,a)+α[r+γa′maxQ(s′,a′)−Q(s,a)]其中,α是学习率,γ是折扣因子,a′maxQ(s′,a′)表示在状态s′下选择的动作所能得到的最大未来奖励。
- 使用以下更新公式更新 Q 值:
-
状态更新:
-
更新状态
s ← s ′ s \leftarrow s' s←s′ -
重复步骤 2 至 4,直到达到终止状态。
-
Q-Learning的特点
-
无模型学习:
- Q-Learning 是一种无模型算法,不需要环境的转移概率,仅通过与环境交互学习。
-
离线更新:
- 在更新 Q 值时,Q-Learning 假设始终采取最优动作,即使用最大化未来价值进行更新。
-
收敛性:
- 在合适的条件下(如足够的探索、合适的学习率),Q-Learning 可以保证收敛到最优 Q 值函数。
Q-Learning与Sarsa的区别
-
更新机制:
- Q-Learning 是基于最优策略进行更新,而 Sarsa 是基于当前策略进行更新。
-
策略性质:
- Q-Learning 偏乐观,因为它总是假设能采取最优动作;Sarsa 则更保守,遵循当前策略。
Q-Learning的应用
Q-Learning 常用于需要学习最优策略的任务,如路径规划、游戏 AI、自动化交易系统等。其无模型特性使其在不确定或复杂环境中具有广泛应用。
总结
Q-Learning 是一种强大的强化学习算法,通过学习状态-动作值函数来找到最优策略。其无模型、离线更新特性使其适用于各种复杂任务,但其学习过程依赖于足够的探索和适当的参数设置。
笔记
Sarsa VS Q-Learning
这两个方法都是TD类型的算法。
-
Sarsa主要是训练动作价值函数
Q π ( s t , a t ) T D t a r g e t : y t = r t + γ ∗ Q π ( s t + 1 , a t + 1 ) Q_{\pi}(s_{t},a_{t}) \\ TD \ target: y_{t} = r_{t} + \gamma * Q_{\pi}(s_{t+1}, a_{t+1}) Qπ(st,at)TD target:yt=rt+γ∗Qπ(st+1,at+1)
Sarsa方法主要是更新训练价值网络的(critic),价值网络是用来近似动作价值函数 -
Q-Learning主要是训练最优动作价值函数
Q
∗
(
s
t
,
a
t
)
T
D
t
a
r
g
e
t
:
y
t
=
r
t
+
γ
∗
m
a
x
a
Q
∗
(
s
t
+
1
,
a
)
Q^*(s_{t},a_{t}) TD \ target: \ y_{t} = r_{t} + \gamma*max_{a}Q^*(s_{t+1}, a)
Q∗(st,at)TD target: yt=rt+γ∗maxaQ∗(st+1,a)
Q-Learning方法主要是更新DQN网络
TD target推导