- 博客(4)
- 收藏
- 关注
原创 时序差分学习
第六章 时序差分学习如果非要说一个强化学习中最核心并且新奇的方法,那么时序差分学习毫无疑问就是那种方法。TD方法是蒙特卡洛方法和动态规划思想的结合。所以TD方法有两个特点:一是可以直接从经验中学习,不需要环境模型;二是TD方法根据其他的估计来更新估计,也就是自举。时序差分学习,蒙特卡洛方法和动态规划三者之间关系的比较是强化学习中贯穿始终的主题。6.1 TD预测(1)Constant-α...
2018-08-16 10:21:58 1766
原创 蒙特卡洛方法
蒙特卡洛方法在本章中,我们介绍了估计值函数的学习方法,并用此来寻找最优策略。不像前几章有对环境的完全的认识,蒙特卡洛方法只需要经验。总结来说,蒙特卡罗方法是从经验中学习值函数和策略的方法。蒙特卡洛方法能被用于两种方法:一是直接从从实际经验中学习,并不需要模型;二是能从模拟中学习,不需要概率分布。蒙特卡洛方法是基于平均样本报酬的解决强化学习的方法。本书中蒙特卡洛方法被用于情节式的任务。蒙特卡洛...
2018-08-16 10:21:18 4843 1
原创 基于表方法的规划和学习方法读书笔记
基于表方法的规划和学习方法读书笔记在这一章中我们从一种统一的视角结合了强化学习中有模型的方法和无模型的方法。基于模型的方法的主要部分是规划,无模型的方法主要依赖学习。这两类方法有共同的基础,首先都是依靠值函数的计算,再者这些方法都是基于未来状态然后靠反向传播来更新当前值函数。8.1 模型和规划agent可以根据环境的模型来预计某一动作的反应。有些模型是随机性的,这种情况下每一种反馈都有...
2018-08-16 10:11:54 420
原创 第七章 n步自举读书笔记
第七章 n步自举在本章中,我们结合了前两章讲的蒙特卡洛方法和一步时序差分方法,拓展出n步TD方法。N步方法使我们从TD(0)的一步时间限制中跳出,可以根据问题合理的选择n的大小。和往常一样,我们先介绍n步自举的预测问题,然后在考虑它的控制问题。7.1 n步TD预测一步TD方法是等一个时间步数后根据下一个状态的估计值自举计算,而蒙特卡洛方法是等所有的时间步数完成后进行计算,n步自举是中间...
2018-08-16 10:11:04 422
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人