强化学习之无模型方法二：时间差分

最新推荐文章于 2024-08-07 19:27:16 发布

静_流

最新推荐文章于 2024-08-07 19:27:16 发布

阅读量3.3k

点赞数

分类专栏：【算法】强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hiwallace/article/details/81448055

版权

本文详细探讨了强化学习中的时间差分（TD）方法，包括TD的评价与优化策略，如Sarsa和Q-Learning。TD结合了动态规划和蒙特卡洛方法，通过采样和贝尔曼方程更新值函数，能在不完全信息下学习。相比于动态规划（DP）和蒙特卡洛（MC）方法，TD在偏差和方差之间取得平衡，能够在每一步中进行在线学习，尤其适用于连续性和片段性任务。

摘要由CSDN通过智能技术生成

时间差分方法(TD)是强化学习中最核心的也是最新奇的方法，混合了动态规划(DP)和蒙特卡洛方法(MC)

和MC类似，TD从历史经验中学习
和MDP类似，使用后继状态的值函数更新当前状态的值函数

TD属于无模型方法，未知P和R，同时应用了采样和贝尔曼方程，可以从不完整的片段中学习，通过估计来更新估计

时间差分评价

时间差分策略评价算法

目的：给定策略 $\pi$ ，求其对应的值函数 $v_{\pi}$
增量式MC是从数据中重复采样，每得到一个路径更新一次回报值：

V (S t) \leftarrow V (S t) + a (G t - V (S t))

$V(S_t) \leftarrow V(S_t)+a(G_t-V(S_t))$
时间差分算法（Temporal-difference,TD）使用估计的回报值

Rt+1+γV(St+1) R t + 1 + γ V ( S t + 1 ) $R_{t+1}+\gamma V(S_{t+1})$ 去更新值函数

V(St)(TD(0)) V ( S t ) ( T D ( 0 ) ) $V(S_t)(TD(0))$

V (S t) \leftarrow V (S t) + a (R t + 1 + γ V (S t + 1) - V (S t))

$V(S_t) \leftarrow V(S_t)+a(R_{t+1}+\gamma V(S_{t+1})-V(S_t))$
其中

Rt+1+γV(St+1) R t + 1 + γ V ( S t + 1 ) $R_{t+1}+\gamma V(S_{t+1})$ 称为 TD目标，

Rt+1+γV(St+1)−V(St) R t + 1 + γ V ( S t + 1 ) − V ( S t ) $R_{t+1}+\gamma V(S_{t+1})-V(S_t)$ 称为 TD误差

这里写图片描述

TD VS. DP

DP利用了贝尔曼方程，全宽概率分布求解，TD也利用了贝尔曼方程，主要做了几点改动：

全宽备份 $\rightarrow$ 样本备份，并去掉了期望符号

$V (S) \leftarrow R + γ V (S$

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。