强化学习学习笔记-时间差分算法

概述

时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗方法(Monte Carlo Methods)的优点,从而对状态值(state value)和策略(optimal policy)进行预测

概念引入

自举法

我们的项目并不总是有充足的数据。通常,我们只有一个样本数据集可供使用,由于缺乏资源我们无法执行重复实验(例如A/B测试)。

幸运的是,我们有重采样的方法来充分利用我们所拥有的数据。自举法(Bootstrapping)是一种重采样技术。理想情况下,我们希望从真实的总体中提取多个独立的真实样本以理解总体统计数据。然而我们已经确定,这可能并不总是可行的。因此我们必须使用样本数据集,这是我们拥有的关于总体的最好(也是唯一)信息。

自举法合理的假设是,大多数样本(如果是随机抽取的)将看起来与它们的总体非常相似。这意味着我们的样本数据可以被视为一个总体,我们现在假装它代表真实的总体(一定要记住这一点)。

有了这个假设群体,我们可以从中抽取多个(自举)随机样本。这就好像我们从真实总体中获得了多个样本。

注:实际上,原始样本只是真实总体中的一个样本。

由于允许进行置换抽样,所以自举的样本也可以看作是在不同方法和假设下产生的随机样本。

从这些自举样本中汇总的抽样信息最终将帮助我们获得(相对)准确的总体参数估计值,例如总体均值。

在这里插入图片描述
伪代码
在这里插入图片描述

DP和TD对比

在这里插入图片描述

DP备份
在这里插入图片描述
TD备份
在这里插入图片描述

TD和MC对比

MC备份
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在监督学习中,偏差/方差有另外的理解——欠拟合和过拟合偏差大 (欠拟合): 预测值和样本之间的差方差大 (过拟合): 样本值之间的方差, 学出的模型适用性差方差大意味着样本的置信度较差不同的机器学习方法会在两者之间做权衡 (trade-off)

在这里插入图片描述
MC 有高方差,零偏差
收敛性较好 (即使采用函数逼近)
对初始值不太敏感
简单, 容易理解和使用
随着样本数量的增加,方差逐渐减少, 趋近于 0
TD 有低方差,和一些偏差
通常比 MC 效率更高
表格法下 TD(0) 收敛到 vπ(s)(函数逼近时不一定)
对初始值更敏感
随着样本数量的增加,偏差逐渐减少,趋近于 0

TD 利用了马尔可夫性
一般来说 TD 在马尔可夫环境中更有效
MC 没有利用马尔可夫性
一般对非马尔可夫环境更有效

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丰。。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值