原视频地址:强化学习-MDP(3)-价值函数_哔哩哔哩_bilibili
价值函数
首先要知道折扣奖励的概念定义
下面的Ut,Rt,Gt都是代表的累计折扣奖励
状态价值函数
求期望的原因是Ut的值依赖于未来所有的动作和状态,当前t时刻无法计算出准确的值,在t时刻Ut是一个随机量,通过求期望(加权平均)的方式来去掉随机性,
如上,在状态S 下可以选择三个动作,假设每个动作之后还有三个动作,那在St+1时刻会有9个动作,而在S时刻选择每个动作的概率是不一定相同的,对于策略来说,从S到St+1,每一个分支都代表了1个Ut,我们一共会得到9个,这九个的概率是不同的,所以我们要按照每个分支的概率去求加权平均(期望)。
状态动作价值函数
根据Ut(Rt==Ut一个意思)评判策略Π的好坏
从状态S出发,得到的累计折扣奖励Ut的期望,将他的值记为Qpai(s,a)
在状态pai下,给定一个S,以上图为例,会有三个qΠ(s,a)
二者之间的关系
Vpai--->Qpai
因为状态价值函数是求得加权平均(期望),而状态动作价值函数是给定S后每个动作的期望,所以有下图,pai(a|s)是该分支动作的概率*该分支的期望得分==状态价值函数
简化后得到
Qpai--->Vpai
状态转移概率
贝尔曼期望方程
将上述两个式子分别带入定义式可以得到Vpai(s)和Vpai(s'),Qpai(s)和Qpai(s')关系,这就是贝尔曼方程组
最优化贝尔曼方程
就是最优状态价值函数指的是在所有的策略产生的状态价值函数中最大的那个函数。同样的,最优状态动作值函数指的是再所有的策略中产生的状态动作价值函数中最大的那个函数。因为我们的目标就是要找到一个使得reward最大化的路径,所以也就是相当于每一步都要找到最大的。
第一个式子的反证法证明