强化学习笔记（西湖大学课程）第三节

五山扫地老大爷

于 2024-09-04 08:00:00 发布

阅读量1.7k

点赞数 47

分类专栏：强化学习文章标签：笔记机器学习算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80029803/article/details/141874485

版权

强化学习专栏收录该内容

5 篇文章

订阅专栏

第二课贝尔曼公式

1 引例

为什么return是重要的

用来评估策略的优劣性

如何计算return

第一种：按照基本定义，从起点出发一步一步计算
第二种：递归计算方法，v1=r1+γv2，将后面的reward用第二个状态的value来表示，最终递归到最后一个状态
从不同状态出发的return取决于其他状态的return bootstrapping
即可以推出贝尔曼公式 v=r+γPv 一个矩阵方程，通过求解矩阵方程即可推出v的具体值，即v矩阵是必然可解的
矩阵的思想在其中会有非常大的重要性

2 state value的定义

state value：从某一状态开始，采取某一策略所获得的return的期望

sv是一个关于s的函数，不同状态的sv是不同的
sv是一个基于策略的函数，不同策略的sv也可能会不同
sv可以代表一个状态所具有的价值，sv越高，这个状态具有的价值也就越高

辨析一下区别，return仅针对一个确定的trajectory,而sv针对多个trajectory，一个策略对应的trajectory是服从概率分布的，即一个策略会对应一至多个trajectory，但是sv是针对某一状态的某一策略而不是针对某一状态的某一轨迹，是按概率分布求到的多条tra的return的加权平均值（期望）

3 贝尔曼公式的详细推导

第二部分可以看作是均值的定义形式（r*p求和)，这一项是即时回报的均值

第一项解读：在某策略下采取动作所得的return的均值和采取该动作的概率之积的和，即reward*reward发生的概率求和，乘积后再求和

第二项解读：当前状态到下一状态概率*下一状态所能得到的return的平均值（即下一状态的sv）整体求和，当前状态到下一状态的概率又可以写为该策略下不同动作的概率 * 该动作得到下一状态的概率再求和最后一部分的变形依旧是全概率公式

第一项：当前reward的均值

第二项：未来reward的均值

两相结合即可以得到最正统的贝尔曼公式

对于所有的状态都成立

第一概率是policy策略

第二和第三概率是有模型概率，即策略转移概率和回报概率

贝尔曼公式中的P也是有实际意义的，融合了策略和回报的概率

4 贝尔曼公式的矩阵和向量形式

相当于把每一个状态的贝尔曼方程按顺序排下来，再写为矩阵形式，p是所谓的状态转移矩阵

policy evaluation：“学习”的本原逻辑所在，只有能够评价一个策略的优劣，才能将机器引导向更加合适的策略，进而实现所谓的学习过程，因此策略优劣的评估是让机器学习和指导机器学习最重要也是最基本的一个概念

求解方式：

定义法：求解逆矩阵之后再计算（计算量较大，在实际应用之中几乎不会出现）

迭代法：任意假设一个初值v0，带入贝尔曼方程的迭代式中进行不断的迭代处理，可以证明在迭代次数足够多的情况下，vk会收敛于vπ（咋证的，我也不知道）和巴纳赫不动点有关，可证明误差的确是趋向于0的

补一句求解方法，vπ=rπ+γPπvπ这个式子，将右边随机选定一个v0(很多时候选的就是0)，求出式子左侧的v1，再依次向下迭代，可以证明在迭代无数次后，vk一定会收敛到vπ

在策略不相同时，sv也有可能相同

5 action value

相比于sv的区别：av是从一个状态出发并且选择了一个action之后所得到的average return,亦即相较于sv多了一个限制条件

av是对策略的评价指标，av越大则证明对应的动作越有效，亦即更应选择该策略

详细的解析：sv和av之间有着非常显而易见的联系，sv是最为原始的情况，仅仅知道当前状态去评估return,而av是进一步的情况，在采取某一动作之后再去计算return,因此sv=av * 由策略确定的发生该动作的概率 再求和，sv是av的加权和，加权就是策略，即发生该动作的概率

4式如何记忆：AV=贝尔曼方程右端/π（a/s)

2式和4式实际上就是一对相生的式子，之前推导的贝尔曼公式的后半部分即是av，两者是可以相互转化的

在某一状态下，任意的av都是可以计算的，在某种确定性的策略中，可能存在有的action概率为0，但此时其对应的av也是存在的，这也是在未来进行策略改进一个非常重要的参考方向

计算av方法：从贝尔曼公式计算或者绕开模型直接计算

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。