Q-learning

本文详细介绍了Q-learning算法,包括其在离散状态和动作空间中的应用,目标策略与行为策略的区别,以及Q值函数在决策过程中的核心作用。重点阐述了ε-贪婪策略和算法步骤,以及参数设置如步长大小α和ε的运用。
摘要由CSDN通过智能技术生成

Q-learning

  1. 状态和动作空间离散,数量少,可选择Q-learning算法。
  2. Q学习是一种异策略,有两种不同的策略:目标策略和行为策略。目标策略是需要去学习的策略,根据经验来学习最优的策略,不需要和环境进行交互。行为策略是探索环境的策略。
  3. 目标策略直接在Q表格上使用贪心策略取它下一步能得到的所有状态。
  4. 行为策略可以是一个随机的策略,但是可以采用ε-贪心策略,让行为不至于是完全随机的,而是基于Q-表格逐渐改进的。
  5. 在每个时间步,智能体执行一个动作后,环境会给予智能体一个奖励信号,表示这个动作的好坏。
  6. Q值函数是Q学习的核心,它表示在给定状态下采取特定动作所获得的期望累积奖励。Q值通常表示为Q(s, a),其中s表示状态,a表示动作。

算法步骤

  1. 算法参数:步长大小α∈(0,1],一个很小的值ε>0.
  2. 对于所有的s∈S,a∈A(s),随机初始化Q(s, a),除非Q(终点,·)=0.
  3. 对每一个回合进行循环
    使用从Q中衍生出来的策略(例如ε-贪心策略)从s中选择a。
    执行a,观测r, s’.
    在这里插入图片描述
    s ← s’
  4. 直到s到达终点。
  • 14
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值