强化学习—Q-Learning

Q-Learning

Q-Learning 是一种基于值的强化学习算法,用于在不需要模型的情况下找到马尔可夫决策过程(MDP)的最优策略。它是一种离线学习方法,通过学习一个状态-动作值函数(即 Q 值),可以在不直接与环境交互的情况下改进策略。

Q-Learning的核心思想

Q-Learning 的目标是学习一个最优的动作值函数 ( Q^*(s, a) ),其中 ( s ) 是状态,( a ) 是动作。这个函数表示在状态 ( s ) 采取动作 ( a ) 后,按照最优策略能获得的期望累积奖励。

Q-Learning算法的工作流程

  1. 初始化

    • 初始化 Q 值表 ( Q(s, a) ) 为一个小的随机值或零。
    • 选择初始状态 ( s_0 )。
  2. 选择动作

    • 根据当前状态 ( s ) 和 Q 值表选择动作 ( a ),通常使用 ε-贪婪策略(在探索与利用之间进行权衡)。
  3. 执行动作

    • 执行动作 ( a ),观察奖励 ( r ) 和下一个状态 ( s’ )。
  4. 更新Q值

    • 使用以下更新公式更新 Q 值:
      Q ( s , a ) ← Q ( s , a ) + α [ r + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] 其中, α 是学习率, γ 是折扣因子, max ⁡ a ′ Q ( s ′ , a ′ ) 表示在状态 s ′ 下选择的动作所能得到的最大未来奖励。 Q(s, a) \leftarrow Q(s, a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s, a)] \\其中,\alpha是学习率,\gamma是折扣因子,\max_{a'} Q(s', a')表示在状态 s' 下选择的动作所能得到的最大未来奖励。 Q(s,a)Q(s,a)+α[r+γamaxQ(s,a)Q(s,a)]其中,α是学习率,γ是折扣因子,amaxQ(s,a)表示在状态s下选择的动作所能得到的最大未来奖励。
  5. 状态更新

    • 更新状态
      s ← s ′ s \leftarrow s' ss

    • 重复步骤 2 至 4,直到达到终止状态。

Q-Learning的特点

  • 无模型学习

    • Q-Learning 是一种无模型算法,不需要环境的转移概率,仅通过与环境交互学习。
  • 离线更新

    • 在更新 Q 值时,Q-Learning 假设始终采取最优动作,即使用最大化未来价值进行更新。
  • 收敛性

    • 在合适的条件下(如足够的探索、合适的学习率),Q-Learning 可以保证收敛到最优 Q 值函数。

Q-Learning与Sarsa的区别

  • 更新机制

    • Q-Learning 是基于最优策略进行更新,而 Sarsa 是基于当前策略进行更新。
  • 策略性质

    • Q-Learning 偏乐观,因为它总是假设能采取最优动作;Sarsa 则更保守,遵循当前策略。

Q-Learning的应用

Q-Learning 常用于需要学习最优策略的任务,如路径规划、游戏 AI、自动化交易系统等。其无模型特性使其在不确定或复杂环境中具有广泛应用。

总结

Q-Learning 是一种强大的强化学习算法,通过学习状态-动作值函数来找到最优策略。其无模型、离线更新特性使其适用于各种复杂任务,但其学习过程依赖于足够的探索和适当的参数设置。

笔记

Sarsa VS Q-Learning

这两个方法都是TD类型的算法。

  • Sarsa主要是训练动作价值函数
    Q π ( s t , a t ) T D   t a r g e t : y t = r t + γ ∗ Q π ( s t + 1 , a t + 1 ) Q_{\pi}(s_{t},a_{t}) \\ TD \ target: y_{t} = r_{t} + \gamma * Q_{\pi}(s_{t+1}, a_{t+1}) Qπ(st,at)TD target:yt=rt+γQπ(st+1,at+1)
    Sarsa方法主要是更新训练价值网络的(critic),价值网络是用来近似动作价值函数

  • Q-Learning主要是训练最优动作价值函数


Q ∗ ( s t , a t ) T D   t a r g e t :   y t = r t + γ ∗ m a x a Q ∗ ( s t + 1 , a ) Q^*(s_{t},a_{t}) TD \ target: \ y_{t} = r_{t} + \gamma*max_{a}Q^*(s_{t+1}, a) Q(st,at)TD target: yt=rt+γmaxaQ(st+1,a)
​ Q-Learning方法主要是更新DQN网络

TD target推导

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 11
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值