基于模型的强化学习

最新推荐文章于 2025-05-02 20:02:43 发布

芝士小季

最新推荐文章于 2025-05-02 20:02:43 发布

阅读量138

点赞数

分类专栏：动手学强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/Demoo26/article/details/134984160

版权

动手学强化学习专栏收录该内容

9 篇文章

订阅专栏

基于模型的强化学习

学习一个MDP模型

目前我们关注在给出一个已知MDP模型后，即状态转移 $P_{sa}{(s')}$ 和奖励函数 $R (s)$ 明确给定后

计算最优价值函数
学习最优策略

在实际问题中，状态转移和奖励函数一般不是明确给出的

往往只能够看到一些片段episodes

Episode1: $s^{(1)}_{0}\xrightarrow{a^{(1)}_{0},R(s_{0})^{(1)}}s^{(1)}_{1}\xrightarrow{a^{(1)}_{1},R(s_{1})^{(1)}}s^{(1)}_{2}\xrightarrow{a^{(1)}_{2},R(s_{2})^{(1)}}s^{(1)}_{3}\cdots s^{(1)}_{T}$

Episode2: $s^{(2)}_{0}\xrightarrow{a^{(2)}_{0},R(s_{0})^{(2)}}s^{(2)}_{1}\xrightarrow{a^{(2)}_{1},R(s_{1})^{(2)}}s^{(2)}_{2}\xrightarrow{a^{(2)}_{2},R(s_{2})^{(2)}}s^{(2)}_{3}\cdots s^{(2)}_{T}$

从经验中学习一个MDP模型

学习状态转移概率 $P_{sa}{(s')}$

${P_{sa}{(s')}}=\frac{在s下采取动作a并转移到s'的次数}{在s下采取动作a的次数}$

学习奖励函数 $R (s)$ ，也就是立即奖赏期望

$R(s)=average\{R(s)^{(i)}\}$

学习模型&优化策略

算法实现

随机初始化策略 $\pi$
重复以下过程直到收敛
1. 在MDP中执行 $\pi$ ，收集经验数据
2. 使用MDP中的累积经验更新对 $P_{sa}$ 和 $R$ 的估计
3. 利用对 $P_{sa}$ 和 $R$ 的估计执行价值迭代，得到新的估计价值函数 $V$
4. 根据 $V$ 更新策略 $\pi$ 为贪心策略