【莫烦】强化学习(Q-learning和Sarsa)

1.Q-learning

  • Q-learning属于off-policy,即它看着别人玩来学习。而Sara是走到哪一步就选哪一步,所以只能从自身的经验来学习。可以说成Sara比较胆小,尽量保存自身的安全。

1)两个状态两个动作的例子

在这里插入图片描述

2)Q-learing流程

  • ϵ − g r e e d y \epsilon-greedy ϵgreedy是用在决策上的策略,假如 ϵ − g r e e d y = 0.9 \epsilon-greedy=0.9 ϵgreedy=0.9,说明有90%的概率根据Q-table的最优值来选择action,而10%的概率来随机选择。总之,在当前状态 s s s,可以根据自己设计的policy来做下一步动作 a a a,因此这是一个自己估计的 Q ( s , a ) Q(s, a) Q(s,a).
  • 此外,在当前状态 s s s做动作 a a a后,环境会给一个反馈,该反馈包括下一个转态 s ′ s^{\prime} s和对应的奖励 r r r。求出在状态 s ′ s^{\prime} s时的最大 Q Q Q值,即 m a x a ′ ( s ′ , a ′ ) max_{a^{\prime}} (s^{\prime}, a^{\prime}) maxa(s,a).
  • α \alpha α是学习效率,来决定这一次的误差有多少要被学习,一般小于1.
  • γ \gamma γ是对未来奖励的衰减值.
    在这里插入图片描述
  • 例子:一维和二维的探索者游戏

视频源:https://www.bilibili.com/video/BV13W411Y75P?p=5
代码:https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow

2. Sarsa

1)Original Sarsa

  • Sara属于off-policy,它看着别人玩来学习。而Sara是走到哪一步就选哪一步,所以只能从自身的经验来学习。可以说成Sara比较胆小,尽量保存自身的安全。
  • Q-learning需要计算 m a x a ′ Q ( s ′ , a ′ ) max_{a{\prime}} Q (s^{\prime}, a^{\prime}) maxaQ(s,a),即选择当前转态 s ′ s^{\prime} s下的最大 Q Q Q值。而Sara计算的是 Q ( s ′ , a ′ ) Q(s^{\prime}, a^{\prime}) Q(s,a),即在下一状态 s ′ s^{\prime} s时,再执行一次选择action操作(即步骤S2)。
    在这里插入图片描述

2)Sarsa( λ \lambda λ)

  • Sarsa( λ \lambda λ)同时更新路径上的 Q Q Q值。
    在这里插入图片描述
    在这里插入图片描述

视频:https://www.bilibili.com/video/BV13W411Y75P?p=5
源码:https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值