基于模型的动态规划方法理论——bootstrapping算法（自举算法）

最新推荐文章于 2024-08-06 17:31:09 发布

oO蛋蛋Oo

最新推荐文章于 2024-08-06 17:31:09 发布

阅读量3.3k

收藏 1

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27389705/article/details/88966473

版权

强化学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

强化学习分类

bootstrapping算法（自举算法）

直接上公式，前面的推导过程就不粘了，跟马尔可夫那块差不多。
$v_\pi(s) = \sum_{a\in\ A}\pi (a|s)\left( R_s^a + \gamma \sum_{s\prime \in S} P_{ss\prime}^av_\pi (s\prime)\right)$
在公式中， $v_\pi(s\prime)$ 是未知的，也就是下一步的值函数是位置的，但是求当前状态的值函数需要下一状态的值函数。文中使用高斯-赛德尔迭代法进行求解
$v_{k+1}(s) = \sum_{a\in\ A}\pi (a|s)\left( R_s^a + \gamma \sum_{s\prime \in S} P_{ss\prime}^av_k (s\prime)\right)$
从公式中可以看出， $v_{k+1}(s)$ 与 $v_{k}(s\prime)$ 的值函数通过迭代逼近，实现的伪代码如下

输入：需要评估的策略 $\pi$ 状态转移概率 $p_{ss\prime}^a$ 回报函数 $R_s^a$ ，折扣因子 $\gamma$
初始化值函数： $v (s) = 0$
Repeat k=0,1,…
for every s do
$v_{k+1}(s) = \sum_{a\in A}\pi(a|s)(R_s^a+\gamma\sum_{s\prime\in S}p_{ss\prime}^av_{k}(s\prime))$
end for
Until $v_{k+1} = v_{k}$
输出： $v (s)$

需要注意的是，在每次迭代中都需要对状态集进行一次遍历（扫描）以便评估每个状态的值函数。

oO蛋蛋Oo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于模型的动态规划方法理论——bootstrapping算法（自举算法）

强化学习分类bootstrapping算法（自举算法）直接上公式，前面的推导过程就不粘了，跟马尔可夫那块差不多。vπ(s)=∑a∈ Aπ(a∣s)(Rsa+γ∑s′∈SPss′avπ(s′))v_\pi(s) = \sum_{a\in\ A}\pi (a|s)\left( R_s^a + \gamma \sum_{s\prime \in S} P_{ss\prime}^av_\pi...
复制链接

扫一扫

专栏目录

oO蛋蛋Oo CSDN认证博客专家 CSDN认证企业博客

码龄9年

暂无认证

23: 原创

51万+: 周排名

106万+: 总排名

9万+: 访问

: 等级

809: 积分

46: 粉丝

36: 获赞

12: 评论

207: 收藏

私信

关注

热门文章

分类专栏

最新评论

MCMC方法整理与理解
⁢　 ⁠⁢: α（i，j）作为新引入的变量是怎么跟接受率扯上关系的？这是作者自己加上的吗？而且从α（i，j）的公式来看得到的应该是p（i）呀，怎么扯到接受率了呢
关于CWRU轴承数据集的分类
MrKim12: 这机组取得都是里面的drive end数据吧？故障我看采样频率是12k，那97的采样频率也是12k喽？
关于CWRU轴承数据集的分类
oO蛋蛋Oo 回复 MrKim12: 97、105、118、（130、144、156），正常和三种故障，在0负载下的数据
关于CWRU轴承数据集的分类
MrKim12: 第一组就是normal_0_97.mat那个文件？
关于CWRU轴承数据集的分类
oO蛋蛋Oo 回复 MrKim12: 一共有几组数据，这是第一组，数据相比其他组全一些

最新文章

2020年2篇

2019年21篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值