时序差分方法

最新推荐文章于 2024-05-28 22:19:13 发布

火鸡哥

最新推荐文章于 2024-05-28 22:19:13 发布

阅读量1.7k

点赞数

分类专栏：机器学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012587024/article/details/81383303

版权

机器学习同时被 2 个专栏收录

33 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

时序差分方法

动态规划的公式是在每执行一步策略后更新值函数，但必须模型可知；
蒙特卡罗方法对末知模型进行动态值估计，但需要在完成一个采样阶段后才能更新值函数。
而时序差分方法则结合了动态规划和蒙特卡罗方法的思想，做到更高效的免模型学习。

1､公式推导

动态规划：
$v_π(s) = E(r+g*v_π(s'))$
$E：$ 数学期望， $g：$ 折扣率；

蒙特卡罗方法：
$V_{t+1}(s) = V_t(s)+a(v_{t+1}(s)-V_t(s))$
$V_t(s)：$ t阶段后状态 $s$ 的状态值， $v_t(s)：$ 第t阶段状态 $s$ 的状态值；

将动态规划中的公式代入蒙特卡罗方法中的公式得：

$V_{t+1}(s)$
$= V_t(s)+a(E(r+g*v_π(s'))-V_t(s))$
$= V_t(s)+a(r_{t+1}+g*V_t(s')-V_t(s))$

动作值函数也可以使用这公式，因此：

Q t + 1 (s, a) = Q t (s, a) + a (r t + 1 + g * Q t (s', a') - Q t (s, a))

$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*Q_t(s',a')-Q_t(s,a))$

2､类别

根据 $Q_t(s',a')$ 的选择不同，可以分三种方法：

sarsa0:根据e贪婪策略随机选择下一个状态 $s'$ 的动作 $a'$ ，并将 $Q_t(s',a')$ 作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*Q_t(s',a')-Q_t(s,a))$

sarsamax(Q学习):将下一个状态 $s'$ 的最大动作值作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*max(Q_t(s',a'))-Q_t(s,a))$

预期sarsa:根据e贪婪策略，将下一个状态 $s'$ 的状态值作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*\sum_{a'∈A(s')}π(a'|s')*Q_t(s',a')-Q_t(s,a))$

3､性能分析

1､Sarsa 和预期 Sarsa 都是异同策略 TD 控制算法。在这种情况下，我们会根据要评估和改进的相同（e贪婪策略）策略选择动作。

2､Sarsamax 是离线策略方法，我们会评估和改进（e贪婪）策略，并根据另一个策略选择动作。

3､既定策略 TD 控制方法（例如预期 Sarsa 和 Sarsa）的在线效果比新策略 TD 控制方法（例如 Sarsamax）的要好。

4､预期 Sarsa 通常效果比 Sarsa 的要好。

5､Q 学习的在线效果更差（智能体在每个阶段平均收集的奖励更少），但是能够学习最优策略，以及Sarsa 可以获得更好的在线效果，但是学到的是次最优“安全”策略。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
时序差分方法

时序差分方法动态规划的公式是在每执行一步策略后更新值函数，但必须模型可知；蒙特卡罗方法对末知模型进行动态值估计，但需要在完成一个采样阶段后才能更新值函数。而时序差分方法则结合了动态规划和蒙特卡罗方法的思想，做到更高效的免模型学习。1､公式推导动态规划： vπ(s)=E(r+g∗vπ(s′))vπ(s)=E(r+g∗vπ(s′))v_π(s) = E(r+g*v_π(s')...
复制链接

扫一扫

专栏目录

火鸡哥 CSDN认证博客专家 CSDN认证企业博客

码龄11年

54: 原创

8万+: 周排名

220万+: 总排名

9万+: 访问

: 等级

1337: 积分

13: 粉丝

28: 获赞

9: 评论

181: 收藏

私信

关注

热门文章

分类专栏

2021-01 3篇
特征工程 6篇
机器学习 33篇
非监督学习 5篇
监督学习 8篇
强化学习 3篇
numpy
android 4篇
随记 7篇
数学 4篇

最新评论

tensorflow2.0 | 训练模型的三种方式
普通网友: 模型训练还得是GPU速度快，可以找平台租个GPU，我就是找了几个，autodl，inscode和炼丹侠去租的A100，跑训练的时候比我本机快了将近10倍，而且调优之后启动也特别快，炼丹侠还有免费试用活动，我是觉得用租卡的钱换节省的时间很值
神经网络之过拟合
Nothing0121: dropout丢弃比率为0.5为什么变成那个矩阵啊？不是很明白，具体丢弃的原则是什么啊？
特征相关性
菜菜超努力: 请问特征相关性这一块有没有文献参考
恶毒评论分类报告
weixin_61077387: 求代码邮箱：zaizaigui0210@163.com
恶毒评论分类报告
weixin_43023107: 请问可以给一下代码吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。