文章目录 马尔科夫决策过程 基本概念 环境vs智能体 环境的描述——动力函数 智能体的描述——策略 两者的联系——bellman期望方程 基本元素 价值函数 转移方程和备份图 最优策略 bellman最优秀方程 bellman 方程解析解 -> 最优策略 马尔科夫决策过程 基本概念 马尔可夫性 马尔可夫过程 环境vs智能体 环境的描述——动力函数 动力函数 p ( s ’ , r ∣ s , a ) p(s’,r|s, a) p(s’,