强化学习值函数与贝尔曼方程

小汤姆编程

已于 2023-10-13 15:28:39 修改

阅读量50

点赞数

文章标签：算法

于 2023-10-12 17:06:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56823729/article/details/133790987

版权

原视频地址：强化学习-MDP(3)-价值函数_哔哩哔哩_bilibili

价值函数

首先要知道折扣奖励的概念定义

下面的Ut,Rt,Gt都是代表的累计折扣奖励

状态价值函数

求期望的原因是Ut的值依赖于未来所有的动作和状态，当前t时刻无法计算出准确的值，在t时刻Ut是一个随机量，通过求期望（加权平均）的方式来去掉随机性，

如上，在状态S 下可以选择三个动作，假设每个动作之后还有三个动作，那在St+1时刻会有9个动作，而在S时刻选择每个动作的概率是不一定相同的，对于策略来说，从S到St+1,每一个分支都代表了1个Ut,我们一共会得到9个，这九个的概率是不同的，所以我们要按照每个分支的概率去求加权平均（期望）。

状态动作价值函数

根据Ut(Rt==Ut一个意思)评判策略Π的好坏

从状态S出发，得到的累计折扣奖励Ut的期望,将他的值记为Qpai(s,a)

在状态pai下，给定一个S，以上图为例，会有三个qΠ（s,a）

二者之间的关系

Vpai--->Qpai

因为状态价值函数是求得加权平均（期望），而状态动作价值函数是给定S后每个动作的期望，所以有下图，pai(a|s)是该分支动作的概率*该分支的期望得分==状态价值函数

简化后得到

Qpai--->Vpai

状态转移概率

贝尔曼期望方程

将上述两个式子分别带入定义式可以得到Vpai(s)和Vpai（s'）,Qpai(s)和Qpai（s'）关系，这就是贝尔曼方程组

最优化贝尔曼方程

就是最优状态价值函数指的是在所有的策略产生的状态价值函数中最大的那个函数。同样的，最优状态动作值函数指的是再所有的策略中产生的状态动作价值函数中最大的那个函数。因为我们的目标就是要找到一个使得reward最大化的路径，所以也就是相当于每一步都要找到最大的。

第一个式子的反证法证明

小汤姆编程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。