基于模型的强化学习,可以用动态规划求解 动态规划要求知道马尔科夫五元组:状态集、动作集、状态转移矩阵、奖励、折扣因子 ---使用贝尔曼方程 1、前言 什么是动态规划? 2、策略评价 3、策略提升 4、策略迭代(策略评价+策略提升+...) 5、值迭代 参考连接: https://blog.csdn.net/hiwallace/article/details/81220130