强化学习值函数与贝尔曼方程

原视频地址:强化学习-MDP(3)-价值函数_哔哩哔哩_bilibili

价值函数

首先要知道折扣奖励的概念定义

下面的Ut,Rt,Gt都是代表的累计折扣奖励

状态价值函数

求期望的原因是Ut的值依赖于未来所有的动作和状态,当前t时刻无法计算出准确的值,在t时刻Ut是一个随机量,通过求期望(加权平均)的方式来去掉随机性,

如上,在状态S 下可以选择三个动作,假设每个动作之后还有三个动作,那在St+1时刻会有9个动作,而在S时刻选择每个动作的概率是不一定相同的,对于策略来说,从S到St+1,每一个分支都代表了1个Ut,我们一共会得到9个,这九个的概率是不同的,所以我们要按照每个分支的概率去求加权平均(期望)。

状态动作价值函数

根据Ut(Rt==Ut一个意思)评判策略Π的好坏

从状态S出发,得到的累计折扣奖励Ut的期望,将他的值记为Qpai(s,a)

在状态pai下,给定一个S,以上图为例,会有三个qΠ(s,a)

二者之间的关系

Vpai--->Qpai

因为状态价值函数是求得加权平均(期望),而状态动作价值函数是给定S后每个动作的期望,所以有下图,pai(a|s)是该分支动作的概率*该分支的期望得分==状态价值函数

简化后得到

Qpai--->Vpai

状态转移概率

贝尔曼期望方程

将上述两个式子分别带入定义式可以得到Vpai(s)和Vpai(s'),Qpai(s)和Qpai(s')关系,这就是贝尔曼方程组

最优化贝尔曼方程

就是最优状态价值函数指的是在所有的策略产生的状态价值函数中最大的那个函数。同样的,最优状态动作值函数指的是再所有的策略中产生的状态动作价值函数中最大的那个函数。因为我们的目标就是要找到一个使得reward最大化的路径,所以也就是相当于每一步都要找到最大的。

 第一个式子的反证法证明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值