强化学习-无模型控制(下)

本文深入探讨强化学习中的在线策略学习,重点讲解ε-蒙特卡洛控制,包括sarsa和Q-学习算法的原理与区别。同时,介绍了离线策略学习的重要性,尤其是通过重要性采样来评估和利用不同策略经验。最后,预告将对ROS-rl-agent的实际应用进行实战分析。
摘要由CSDN通过智能技术生成

2.在线策略学习

2.1. ε -蒙特卡洛控制

有了上一节的引导,我们现在可以提出一个基于 ε 的蒙特卡洛控制算法,其流程如下:

  • 随机选择一个策略 π
  • 依据该策略执行一个状态周期,并估算各个状态的价值
  • 使用 ε 贪婪探索进行优化

2.1.1.sarsa

有了之前蒙特卡洛控制的经验,很容易想到,把其中蒙特卡洛预测的部分替换成时间差分,那不就可以完成时间差分控制了么。使得,而且这个算法有一个新名字,叫做sarsa。和蒙特卡洛控制有所区别的是,这里我们使用动作价值函数Q
实际上就是在一个马尔科夫过程
以:

Q(S,A)Q(S,A)+α(R+γQ(S,A)Q(S,A))

sarsa算法主要流程如下:

  • 初始化动作收益函数Q(s,a),一般初始化为0
  • 对每一个episode
    • 初始化状态S
    • ε 贪婪探索决定一个动作
    • 对episode中的每个动作状态
      • 进行决定的行为,并观察结果
      • 更新动作价值函数 Q(S,A)Q(S,A)+α(R+
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值