强化学习:策略迭代与价值迭代 作者:禅与计算机程序设计艺术 1. 背景介绍 1.1 强化学习概述 1.1.1 强化学习的定义 1.1.2 强化学习的特点 1.1.3 强化学习的应用领域 1.2 马尔可夫决策过程 1.2.1 马尔可夫性质 1.2.2 马尔可夫决策过程的组成要素 1.2.3 马尔可夫决策过程的最优性原理 1.3 动态规划 1.3.1 动态规划的基本思想 1.3.2 动态规划的优缺点 1.3.3 动态规划在强化学习中的应用 2. 核心概念与联系 2.1 状态价值函数与动作价值函数 2.1.1 状态价值函数的定义 2.1.2 动作价值函数的定义 2.1.3 两种价值函数之间的关系 2.2 策略与价值函数的关系 2.2.1 策略的定义 2.2.2 确定性策略与随机性策略