强化学习入门

平凡的周辉

已于 2024-07-12 15:30:10 修改

阅读量659

点赞数 12

文章标签：学习算法

于 2024-07-10 19:39:29 首次发布

本文链接：https://blog.csdn.net/gaizunlun2721/article/details/140332098

版权

强化学习笔记汇报

强化学习模型
- 强化学习模型介绍
- 马尔科夫过程（Markov Process）

强化学习模型

强化学习模型介绍

强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：智能体处在一个环境中，每个状态为智能体对当前环境的感知；智能体只能通过动作来影响环境，当智能体执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给智能体一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。

马尔科夫决策模型

根据上图，agent（智能体）在进行某个任务时，首先与environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互，产生新的数据，再利用新的数据去修改自身的动作策略，经过数次迭代后，agent就会学习到完成任务所需要的动作策略。

马尔科夫过程（Markov Process）

举例：

马尔科夫决策过程举例

例子是一个学生学习考试的MDP。里面左下那个圆圈位置是起点，方框那个位置是终点。上面的动作有study, pub, facebook, quit, sleep，每个状态动作对应的即时奖励 $R$ 已经标出来了。目标是找到最优的动作价值函数或者状态价值函数，进而找出最优的策略。

为了方便计算，假设衰减因子 $\gamma=1$ , 每个状态有两种动作选择 $\quad \pi(a \mid s)=0.5$
对于终点方框位置，由于其没有下一个状态，也没有当前状态的动作，因此其状态价值函数 $v_{\pi}(s_5)$ 为 0 。对于其余四个状态，依次定义其价值为 $v_{\pi}(s_1), v_{\pi}(s_2), v_{\pi}(s_3), v_{\pi}(s_4)$ 分别对应左上，左下，中下，右下位置的圆圈。基于
$v_\pi(s)=\sum_{a \in A} \pi(a \mid s)\left(R(s, a)+\gamma \sum_{s^{\prime} \in S} P_{\left(s^{\prime} \mid s, a\right)} \cdot v_\pi\left(s^{\prime}\right)\right)$

来计算所有状态的价值函数，可以得到如下方程组

对于 $v_{\pi}(s_1)$ : $v_{\pi}(s_1)=0.5 *\left(-1+v_{\pi}(s_1)\right)+0.5 *\left(0+v_{\pi}(s_2)\right)$
对于 $v_{\pi}(s_2)$ : $v_{\pi}(s_2)=0.5 *\left(-1+v_{\pi}(s_1)\right)+0.5 *\left(-2+v_{\pi}(s_3)\right)$
对于 $v_{\pi}(s_3)$ : $v_{\pi}(s_3)=0.5 *(0+0)+0.5 *\left(-2+v_{\pi}(s_4)\right)$
对于 $v_{\pi}(s_4)$ : $v_{\pi}(s_4)=0.5 *(10+0)+0.5 *\left(1+0.2 * v_{\pi}(s_2)+0.4 * v_{\pi}(s_3)+0.4 * v_{\pi}(s_4)\right)$

解这个方程组可得: $v_{\pi}(s_1)=-2.3, v_{\pi}(s_2)=-1.3, v_{\pi}(s_3)=2.7, v_{\pi}(s_4)=7.4$ 既是每个状态的价值函数，具体含义可以描述为在各种状态下理论上考试可以得到多少分。

上面固定了策略 $\pi(a \mid s)$ , 虽然求出了每个状态的状态价值函数，但是却并不一定是最优价值函数 $v_{\pi_*}(s) = v^*(s)$ 。
首先我们需要一个最优策略策略 $\pi_*(a \mid s)$ ,其次我们需要一个最优动作值函数 $q_*(s, a)$ ,利用 $v_*(s) = \sum_{a \in A} \pi_*(a \mid s)\left(q_*(s,a) \right)$ 就可以求出所有的 $v_*(s)$ ,这样我们可以求得理论上每个状态的最大价值函数，具体含义可以描述为在最佳策略与最精准的动作价值评价下，各种状态下理论上考试可以得到多少分。