强化学习阅读书籍 概率论与数理统计(第四版)第十二章 随机过程及其描述第十三章 马尔可夫链 概率论及其应用第1卷第15章 马尔可夫链第16章 有限马尔可夫链的代数处理 马尔科夫链模型,算法及应用强化学习入门--从原理到实践第二章 马尔可夫决策过程马尔可夫过程马尔可夫奖励过程马尔可夫决策过程 第三章 动态规划寻找最优策略策略评估策略迭代价值迭代异步动态规划算法 运筹学第三版第8章动态规划的基本方法第1节 多阶段决策过程第2节动态规划的基本概念和基本方程第3节 动态规划的最优性原理和最优性定理第4节动态规划和静态规划的关系 第9章动态规划应用举例第1节 资源分配问题第2节 生产与存储问题第3节 背包问题第4节 复合系统工作可靠性问题第5节排序问题第6节设备更新问题第7节货郎担问题 概率论与数理统计(第四版) 第十二章 随机过程及其描述 第十三章 马尔可夫链 概率论及其应用第1卷 第15章 马尔可夫链 第16章 有限马尔可夫链的代数处理 马尔科夫链模型,算法及应用 强化学习入门–从原理到实践 第二章 马尔可夫决策过程 马尔可夫过程 马尔可夫奖励过程 马尔可夫决策过程 第三章 动态规划寻找最优策略 策略评估 策略迭代 价值迭代 异步动态规划算法 运筹学第三版 第8章动态规划的基本方法 第1节 多阶段决策过程 第2节动态规划的基本概念和基本方程 第3节 动态规划的最优性原理和最优性定理 第4节动态规划和静态规划的关系 第9章动态规划应用举例 第1节 资源分配问题 第2节 生产与存储问题 第3节 背包问题 第4节 复合系统工作可靠性问题 第5节排序问题 第6节设备更新问题 第7节货郎担问题