强化学习（三）：策略评估与优化

最新推荐文章于 2025-02-26 14:26:32 发布

反派，

最新推荐文章于 2025-02-26 14:26:32 发布

阅读量2.7k

点赞数 2

分类专栏：机器学习强化学习文章标签：强化学习机器学习马尔可夫链蒙特卡洛方法

本文链接：https://blog.csdn.net/weixin_33204399/article/details/119130634

版权

本文介绍了强化学习的基本概念，包括Agent-Environment框架、价值函数等。详细讲述了如何通过策略评估和优化来确定状态价值函数，以及使用蒙特卡洛策略评估、TD策略评估等方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年，致力于建立一个完整的智能系统知识库体系。我们的工作：收集和整理世界范围内的学习资源，系统地建立一个内容全面、结构合理的知识库。

作者博客：途中的树

Example taken from Book, Sutton, Barto; Reinforcement Learning

假设一个网格地图
- 4 x 4离散空间位置
- 绿色角落是目标位置
- Agent的任务
  - 找到到达两个目标位置之一的方法
- 状态 $s_t$ ：Agent的位置
- 行动 $a_t$ : 上下左右
- 奖励： $r_t = -1`$
  - 完全负奖励
- 奖励无则损： $\gamma=1$
任务：确认状态价值函数
- $V (s) = ?$
由于可用的状态s是离散的有限的（14个位置),状态值函数V(s)可以很容易的列举出来
- $V (s = 1) ， V (2) ， V (3) . . . V (14)$

为了找到上例中提到的行为策略，我们需要进行策略评估

使用策略 $\pi$ 估计/计算一个价值函数被称为政策评估（或预测问题）
参考强化学习（二）：价值函数已知价值函数为：
- $V^{\pi}(s) = \sum_a \pi(s,a) \sum_{s'} P^a_{s,s'} (R^a_{s,s'} + \gamma V^{\pi}(s'))$
- $\pi(s,a)$ 是在状态 $s$ 下执行行动 $a$ 的概率
- $P^a_{ss'}$ 是执行 $a$ 后从 $s$ 到 $s^{'}$ 的转换概率
- $R^a_{ss'}$ 是执行 $a$ 后从 $s$ 到 $s^{'}$ 的预期回报
线性环境
- 如果行为和属性是有限的已知的，则策略评估的方程就是一个 $\#S$ 线性方程系统，其中# $S$ 指的是未知的状态集合，我们需要找到位置的状态以及他们的价值函数

迭代策略评估是计算#S方程的方法之一
- 在迭代策略评估中，会产生一连串的递归定义的的值 $V_k(s)$
  - 即 $lim_{k\rightarrow\infty}V_k(s)=V^{\pi}(s)$
  - 当然所有的价值函数 $V$ 都依赖于由策略 $\pi_b$ 选出的状态 $s$
    - $V^π_{0}(s)→ V^π_{1}(s)→ V^π_2(s)→ ... V^π_{k}(s)→V^π_{k+1}(s)→ ...V^π(s)$
  - 从k到k+1的步骤需要进行 “Sweep”
    - 对于所有状态s，对于从t到T的完整序列有：
      - $V^{\pi}(s) \leftarrow \sum_a \pi(s,a) \sum_{s'} P^a_{s,s'} (R^a_{s,s'} + \gamma V^{\pi}(s'))$
总结一下策略评估算法：

Taken from Book, Sutton, Barto; Reinforcement Learning, Chapter 4.
- 应用到上面提到的例子可得