强化学习随记

基本概念

智能体:相当于AlphaGo

状态:当前智能体所处的一个状态。

行为:智能体看清了当前的状态之后 要进行的一个下一步的操作,AlphaGo的落子的操作我们称之为行为,往哪个方向走(上下左右)。

奖励:每一步行为之后都会有一个结果,对不同的结果都会有一个奖励的值,如果你学习了我给你一个奖励,如果你打球了(没学习)我就给你一个惩罚。每一步操作都会有一个衡量的指标,来指明这一步操作是对还是不对。

策略:首先在当前的一个环境下,已经看清楚了现在的状态,然后你会有一个目标,对AlphaGo来说最终你想赢。我们会先制定一系列的策略,比如对现在这个状态,我按照什么样的一系列的动作组合,能使得我最终能获胜,得到最大的奖励值。

当前有一个状态,还有一个最终的目标,我达到了最终目标我就可以得到这个奖励,没有达到我就得不到这个奖励。

先观察看下当前状态如何,在当前状态下我先选择一个行动,不合适就继续尝试,每次行动都尝试不同的方向,总会试出一个方向会使得最终的结果奖励值最大。即哪一步走法会使得最终的奖励值最大,那我就走这样一步。

状态我们可以写成一个集合,每走一步都有一个状态,这一系列的状态组成这么一个经验集合,每个状态相当于经验值。

Agent每走一步就会达到一个新的环境,在新的环境当中看下当前的奖励如何。

往左或者往右走完,我们会算一下当前的状态,可以通过杆的角度和速度来算得当前杆是倾斜还是不倾斜。

马尔科夫决策过程

折扣系数:我们做一个动作,不只是会对当前状态有影响,还会对之后的状态都会有影响。对之后状态有影响是说影响了这些状态得到的奖励。折扣系数就表示着我虽然现在做了一个动作,对当下有奖励的同时可能也会对之后的状态奖励有影响,当下的奖励会比未来的奖励更重要一些,比如说当下的奖励折扣系数为1,那么未来带来的奖励折扣系数就为0.8或0.6等等

未来回报的期望就表示着:在当前状态下,可以得到最终的结果或者说平均结果是什么样的,它是一个期望值。

累计奖励的期望是指:把当下和未来全部状态的奖励都算在一起得到的一个值。 价值函数:是某一策略(某一种状态-动作对)下得到的值,。 最优价值函数:因为状态-动作对会有很多,对所有这些进行累计的结果。

bellman方程

动作空间和状态空间都是有限的才能去计算。

Vπ:最终的价值函数。

Vπ(s):当前状态获得的期望。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值