强化学习
文章平均质量分 95
十六次宇宙闪烁
这个作者很懒,什么都没留下…
展开
-
强化学习(第二版)笔记——第六章 时序差分学习
参考周博磊老师课程Richard S.Sutton 《Reinforcement Learning》第六章时序差分学习 Temporal-Difference Learning TD1. 时序差分学习在强化学习中的应用2 时序差分预测1. 时序差分学习在强化学习中的应用在强化学习所有的思想中,时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。与蒙特卡洛方法一致,时序差分方法也可以直接从与环境互动的经验中学习策略,而不需要构建关于环境动态特性的原创 2021-12-02 16:40:49 · 1041 阅读 · 0 评论 -
强化学习(第二版)笔记——第五章 蒙特卡洛方法
参考周博磊老师课程Richard S.Sutton 《Reinforcement Learning》第五章蒙特卡洛方法 Monte Carlo Methods1 蒙特卡洛方法在强化学习中的应用2 蒙特卡洛预测(Monte Carlo Prediction)2.1 蒙特卡洛算法学习状态价值函数2.2 蒙特卡洛算法与动态规划的区别3 动作价值的蒙特卡洛估计3.1 使用蒙特卡洛算法确定动作价值函数3.2 试探性出发4 蒙特卡洛控制4.1 经典策略迭代算法的蒙特卡洛版本4.2 基于试探性出发的蒙特卡洛(原创 2021-11-29 10:59:43 · 1565 阅读 · 0 评论 -
强化学习(第二版)笔记——第四章 动态规划
参考周博磊老师课程Richard S.Sutton 《Reinforcement Learning》第四章动态规划 Dynamic Programming DP1. 动态规划在强化学习中的应用2. 策略评估(预测)(Policy Evaluation(Prediction))1. 动态规划在强化学习中的应用动态规划(DP)是一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,可以计算最优的策略。但对于强化学习问题,传统的DP算法作用有限。原因有二:完备的环境模型原创 2021-11-22 15:40:36 · 494 阅读 · 0 评论 -
强化学习(第二版)笔记——第三章 有限马尔可夫决策过程
有限马尔可夫决策过程1. “智能体-环境”交互接口1.1 状态与收益的概率函数1.2 状态转移概率函数1.3“状态-动作”二元组的期望收益1.4“状态-动作-后继状态”三元组的期望收益2.目标和收益3.回报和分幕功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowcha原创 2021-11-12 14:40:58 · 1221 阅读 · 0 评论