Reinforcement Learning - Morvan Python

地址在这:莫凡的强化学习教程,比较入门的RL教程,例子简单好懂,作为入门还蛮好的?但不建议直接看,一开始可以先看看Sutton书里的balancing methods或者Udacity的强化学习课了解一些基本概念,再来看莫凡的简单例子就会更加融会贯通。

Q-Learning

在这里插入图片描述
重点就是递推的那行Bellman公式,Q是一个table,两轴分别是state与action,其值为当前的价值,那行公式的意思就是:
初始的 Q(S, A) 就是你在 S 执行 A 的假设价值,而从你在 S 执行了 A ,获得了报酬R并进入S’,且假设你后面都会执行暂时价值最大的行动 a 以产生后续的更多的延迟价值(其实就是每一步行动影响到后面的整体价值提升),那么 R+maxaQ(S’, a) 这段实际上就是预期的价值,用 预期值-假设值 ,其中再加上个衰减率 γ 决定延迟价值的影响,还有学习率 α 就是整条公式了。

Easy Example: 改编成Gym格式的找宝藏小游戏

Sarsa

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值