强化学习随记

最新推荐文章于 2024-06-20 18:00:11 发布

weixin_33923762

最新推荐文章于 2024-06-20 18:00:11 发布

阅读量53

点赞数

文章标签：人工智能

原文链接：https://juejin.im/post/5bebcc86f265da615d72339c

版权

基本概念

智能体:相当于AlphaGo

状态：当前智能体所处的一个状态。

行为：智能体看清了当前的状态之后要进行的一个下一步的操作，AlphaGo的落子的操作我们称之为行为，往哪个方向走(上下左右)。

奖励：每一步行为之后都会有一个结果，对不同的结果都会有一个奖励的值，如果你学习了我给你一个奖励，如果你打球了(没学习)我就给你一个惩罚。每一步操作都会有一个衡量的指标，来指明这一步操作是对还是不对。

策略：首先在当前的一个环境下，已经看清楚了现在的状态，然后你会有一个目标，对AlphaGo来说最终你想赢。我们会先制定一系列的策略，比如对现在这个状态，我按照什么样的一系列的动作组合，能使得我最终能获胜，得到最大的奖励值。

当前有一个状态，还有一个最终的目标，我达到了最终目标我就可以得到这个奖励，没有达到我就得不到这个奖励。

先观察看下当前状态如何，在当前状态下我先选择一个行动，不合适就继续尝试，每次行动都尝试不同的方向，总会试出一个方向会使得最终的结果奖励值最大。即哪一步走法会使得最终的奖励值最大，那我就走这样一步。

状态我们可以写成一个集合，每走一步都有一个状态，这一系列的状态组成这么一个经验集合，每个状态相当于经验值。

Agent每走一步就会达到一个新的环境，在新的环境当中看下当前的奖励如何。

往左或者往右走完，我们会算一下当前的状态，可以通过杆的角度和速度来算得当前杆是倾斜还是不倾斜。

马尔科夫决策过程

折扣系数：我们做一个动作，不只是会对当前状态有影响，还会对之后的状态都会有影响。对之后状态有影响是说影响了这些状态得到的奖励。折扣系数就表示着我虽然现在做了一个动作，对当下有奖励的同时可能也会对之后的状态奖励有影响，当下的奖励会比未来的奖励更重要一些，比如说当下的奖励折扣系数为1，那么未来带来的奖励折扣系数就为0.8或0.6等等

未来回报的期望就表示着：在当前状态下，可以得到最终的结果或者说平均结果是什么样的，它是一个期望值。

累计奖励的期望是指：把当下和未来全部状态的奖励都算在一起得到的一个值。价值函数：是某一策略(某一种状态-动作对)下得到的值，。最优价值函数：因为状态-动作对会有很多，对所有这些进行累计的结果。

bellman方程

动作空间和状态空间都是有限的才能去计算。

Vπ：最终的价值函数。

Vπ(s)：当前状态获得的期望。

weixin_33923762

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习随记

基本概念智能体:相当于AlphaGo状态：当前智能体所处的一个状态。行为：智能体看清了当前的状态之后要进行的一个下一步的操作，AlphaGo的落子的操作我们称之为行为，往哪个方向走(上下左右)。奖励：每一步行为之后都会有一个结果，对不同的结果都会有一个奖励的值，如果你学习了我给你一个奖励，如果你打球了(没学习)我就给你一个惩罚。每一步操作都会有一个衡量的指标，来指明这一步操作是对还是不...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。