强化学习—Q-Learning

Tony Wey

已于 2024-08-07 10:49:52 修改

阅读量657

点赞数 11

分类专栏：强化学习文章标签：强化学习人工智能

于 2024-08-07 10:32:35 首次发布

本文链接：https://blog.csdn.net/qq_38023194/article/details/140983761

版权

11 篇文章 0 订阅

订阅专栏

Q-Learning

Q-Learning 是一种基于值的强化学习算法，用于在不需要模型的情况下找到马尔可夫决策过程（MDP）的最优策略。它是一种离线学习方法，通过学习一个状态-动作值函数（即 Q 值），可以在不直接与环境交互的情况下改进策略。

Q-Learning 的目标是学习一个最优的动作值函数 ( Q^*(s, a) )，其中 ( s ) 是状态，( a ) 是动作。这个函数表示在状态 ( s ) 采取动作 ( a ) 后，按照最优策略能获得的期望累积奖励。

初始化：
- 初始化 Q 值表 ( Q(s, a) ) 为一个小的随机值或零。
- 选择初始状态 ( s_0 )。
选择动作：
- 根据当前状态 ( s ) 和 Q 值表选择动作 ( a )，通常使用 ε-贪婪策略（在探索与利用之间进行权衡）。
执行动作：
- 执行动作 ( a )，观察奖励 ( r ) 和下一个状态 ( s’ )。
更新Q值：
- 使用以下更新公式更新 Q 值：
  $\leftarrow Q(s, a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s, a)] \\其中，\alpha是学习率，\gamma是折扣因子，\max_{a'} Q(s', a')表示在状态 s' 下选择的动作所能得到的最大未来奖励。$
状态更新：
- 更新状态
  $\leftarrow s'$
- 重复步骤 2 至 4，直到达到终止状态。

Q-Learning 常用于需要学习最优策略的任务，如路径规划、游戏 AI、自动化交易系统等。其无模型特性使其在不确定或复杂环境中具有广泛应用。

Q-Learning 是一种强大的强化学习算法，通过学习状态-动作值函数来找到最优策略。其无模型、离线更新特性使其适用于各种复杂任务，但其学习过程依赖于足够的探索和适当的参数设置。

这两个方法都是TD类型的算法。

Sarsa主要是训练动作价值函数
$Q_{\pi}(s_{t},a_{t}) \\ TD \ target: y_{t} = r_{t} + \gamma * Q_{\pi}(s_{t+1}, a_{t+1})$
Sarsa方法主要是更新训练价值网络的(critic)，价值网络是用来近似动作价值函数
Q-Learning主要是训练最优动作价值函数