- 博客(1)
- 资源 (3)
- 收藏
- 关注
原创 [强化学习] 时序差分学习
写在前面 本文主要为学习sutton书中《时序差分学习》章节整理而来。 一、引言 1、蒙特卡洛方法回顾 (1)预测问题 蒙特卡洛的目标是根据策略π\piπ采样轨迹序列vπ(s)v_\pi(s)vπ(s):S1,A1,R2,...,Sk∼πS_1,A_1,R_2,...,S_k \sim \piS1,A1,R2,...,Sk∼π。 价值函数:vπ(s)=E(Gt∣St=s)v_\pi(s) = \mathcal{E}(G_t|S_t=s)vπ(s)=E(Gt∣St=s) 累积奖励GtG_tGt
2020-05-11 12:33:36 1553
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人