强化学习导论(第二版) 笔记
目录表格型求解方法表格近似求解方法基于函数逼近的同轨策略预测价值函数逼近的引入价值函数预测的部分逼近方法随机梯度和半梯度方法
表格型求解方法
表格型求解方法价值评估回顾
动态规划 (Dynamic Programming)St↦Eπ[Rt+1+γv^π(st+1,wt)∣St=s]\quad S_t \mapsto \mathbf{E}_\pi[R_{t+1}+\gamma \hat{v}_\pi(s_{t+1},\mathbf{w}_t) \vert S_t=s]St↦Eπ[Rt+1+γv^π
原创
2023-05-15 17:41:25 ·
171 阅读 ·
0 评论