强化学习课程学习（4）——基于Q表格的方式求解RL之Model-Based类型的方法

最新推荐文章于 2024-06-10 23:07:40 发布

置顶

芷若初荨

最新推荐文章于 2024-06-10 23:07:40 发布

阅读量868

点赞数

分类专栏：强化学习深度学习文章标签：强化学习 model-based MDP DP 算法

本文链接：https://blog.csdn.net/Cecilia620/article/details/106904038

版权

本文介绍了强化学习中基于Q表格的算法，包括马尔可夫决策过程（MDP）、动态规划（DP）求解方法。通过贝克曼方程解析状态和动作价值函数，并探讨了动态规划在强化学习预测和控制问题中的应用。内容涵盖交通灯控制、股票投资等场景。

摘要由CSDN通过智能技术生成

经过初始了解强化学习的基本要素后，单单地凭借着这些要素还是无法构建强化学习模型来帮助我们解决实际问题，那么最初地模型是基于Q表格的方式来解决问题，常见的模型可以分成model-based和model-free两大类别，model-based常见的有MDP、DP;model-free常见的有MC、SARSA、Q-learning。
在本小章主要是阐述Model-based类型的常见方法。

基于Q表格的算法的思维导图

在这里插入图片描述

马尔可夫决策过程求解

有了这些基本要素，仍旧无法构建强化学习模型来帮助我们解决实际问题，在此过程中，模型的简化显得特别重要。为此，引入了马尔可夫决策过程（MDP）来简化强化学习模型并求解强化学习问题。

首先对于马尔科夫性，这些在机器学习算法中的隐马尔科夫模型、条件随机场、马尔科夫链等中都学习到，在这里，我们也需要对于环境的状态转化和个体的策略做马尔科夫性，即在状态 $s$ 时采取动作 $a$ 的概率仅仅与当前的状态 $s$ 有关，与其他要素无关，其公式为：
$\pi(a|s) = P(A_t = a | S_t = s)$
同样的，对于价值函数 $v_{\pi}(s)$ 也需要做马尔科夫性假设，仅仅依赖于当前状态，价值函数可以表示为：
$v_{\pi}(s) = E_{\pi}(G_t|S_t=s) = E_{\pi}(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+ \cdot \cdot \cdot | S_t=s)$
其中， $G_t$ 表示收获，是在一个MDP中从某一个状态 $S_t$ 开始采样直到终止状态时所有奖励的有衰减之和。