JoyRL笔记（一）

最新推荐文章于 2024-09-11 12:42:08 发布

梦瑶醒了

最新推荐文章于 2024-09-11 12:42:08 发布

阅读量48

点赞数

文章标签：笔记

本文链接：https://blog.csdn.net/echoxdlll/article/details/134408912

版权

一、马尔可夫决策过程

1.马尔可夫决策过程

马尔可夫决策过程是强化学习基础问题模型之一，主要描述智能体在与环境的交互过程中学到一个目标的过程，而这个目标大部分时候是最大化奖励。

马尔可夫性质是指在某个确定状态的未来只和当前状态有关，与历史的状态无关。

回报是交互过程中积累的最大化的奖励

折扣因子：权衡当前奖励和未来奖励，体现对未来的关注度

2.状态转移矩阵

在状态数有限时，状态之间切换的概率组合成的矩阵就是状态转移矩阵，而这个概率称为状态转移概率，状态转移概率通常简写成 $p\left ( s'\mid s \right )$ ，同时状态转移矩阵是环境的一部分，和智能体没什么关系。

马尔可夫链：没有包含动作和奖励等元素的马尔可夫决策过程

马尔可夫奖励过程：在马尔可夫链的基础上加上奖励元素

二、动态规划

动态规划三大性质：

最优化原理：如果问题的最优解所包含的子问题的解也是最优的，就称该问题具有最优子结构

无后效性：某阶段状态一旦确定，就不受这个状态以后决策的影响，也就是马尔可夫性质

有重叠子问题：并非必要条件

1.状态价值函数、动作价值函数

1.1状态价值函数：

$V\pi \left ( s \right )=E\pi \left [ Gt\mid St=s \right]$

定义：从状态s开始，遵循策略π所能得到的策略回报

V（s）是状态s之后的动作序列上的累积奖励Gt的数学期望

Gt是带有折扣因子的累积回报

1.2动作价值函数：

$Q_\pi(s, a)=\mathbb{E}_\pi\left[G_t \mid s_t=s, a_t=a\right]$

定义：在状态价值函数的基础上加上动作元素

动作价值函数和状态价值函数的关系：

$V_\pi(s)=\sum_{a \in A} \pi(a \mid s) Q_\pi(s, a)$

在状态s下，所有动作价值函数乘以动作的概率就等于状态价值函数，运用了全概率公式

2.贝尔曼方程：

2.1状态价值函数贝尔曼方程：

$\begin{aligned} V_{\pi}(s) & = R(s)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s\right) V_{\pi}\left(s^{\prime}\right) \end{aligned}$

前一个状态的状态价值函数=奖励函数+后一个状态的状态价值函数*状态转移概率*折扣因子

2.2动作价值函数贝尔曼方程：

$Q_{\pi}(s,a) = R(s,a) + \gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s,a\right) \sum_{a^{\prime} \in A} \pi\left(a^{\prime} \mid s ^{\prime} \right)Q_{\pi}\left(s^{\prime},a'\right)$

前一个状态的动作价值函数=奖励函数R（s,a）+后一个状态的动作价值函数*状态转移概率*状态s'下选择动作a'的概率π（a',s'）*折扣因子

3.策略迭代：

策略迭代分为2步：策略估计和策略改进

先根据策略π估计对应的状态价值函数V，再结合策略π推算出动作价值函数Q，并对Q函数优化，通常使用贪婪策略，取能收获最大收益的Q值来优化，再进行新一轮迭代，一轮一轮迭代，最后达到最佳策略和最优状态和动作价值函数

4.价值迭代：

直接通过公式来更新

$V(s) \leftarrow \max _{a \in A}\left(R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right) V\left(s^{\prime}\right)\right)$

先将所有的状态价值初始化，然后不停地对每个状态迭代，直到收敛到最优价值 $V^{*}$ ，并且根据最优价值推算出最优策略 $\pi^{*}$

通过借助策略，策略迭代跳过了价值迭代所要经过的所有点，所以策略迭代要比价值迭代要快

梦瑶醒了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫