第三课 贝尔曼最优公式
1 开头举例:如何改进策略
重点:两个概念一个公式:OSV和OP 最优状态值和最优策略 贝尔曼最优公式
举例证明可知:求解出action value之后av最大的那种动作即是最优策略,即可以通过现有策略计算av之后得到修正策略(但此时的前提是其他sv已经是最优了)在不断迭代后可以得到最优策略
2 OP和最优公式推导
若存在一个策略,其所有的SV均优于其他策略的SV,则称其为最优策略
问题:
-
该最优策略是否存在(存在性)
-
该最优策略是否唯一(唯一性)
-
该最优策略是确定性的还是非确定性的(确定性)
-
如何得到
BOE:
定义上其实就是将贝尔曼公式的右侧嵌套一个最优化问题,对策略进行一个最优化处理而不仅仅是笼统表示为某一种策略
最右侧这部分av(qπ(s,a))啥问题都没有,和上面相比是原模原样地拿下来的,所做的唯一的处理就是求出一个最优的策略然后再代入
最优项的处理:可以发现在实际上,在q即av确定时,求解最优项即求解最大的AV
3 公式的求解以及最优性
-
一些概念
-
不动点(布劳威尔不动点):有fx=x
-
收缩映射(李普希兹条件):函数值差小于函数自变量的差
-
引入CMP
-
不动点存在
-
不动点唯一
-
用迭代计算出最后收敛的不动点(指数收敛)
BOE的求解
首先证明fv满足李普希兹条件
则可以推至此时的最优解v * 一定存在且具有唯一性,同时可以通过迭代算法来计算vk使之逼近v *
(和之前的迭代方式相同,找一个初始值,带进去右边之后不断迭代)
-
验证最优性
用最优策略去替换贝尔曼公式中的策略,得到的即是最优公式,贝尔曼最优公式是策略最优时的贝尔曼公式
4 最优策略的有意思的性质
-
决定因素
-
奖励r
-
系统模型
-
折扣率γ
-
系统的r线性变化后不会改变最优策略,即证明真正重要的的相对AV而不是绝对值
-
最短路径问题:最短路径天然由γ给出的衰减率决定,即在绕路的情况下,SV必然会出现衰减,因此SV的衰减不需要设计一个惩罚reward,绕路过程本身就是一种惩罚
-
最优解一定是唯一的,但是对应最优解的最优策略不一定是唯一的