【强化学习的数学原理】第一课：基本概念-CSDN博客

本文链接：https://blog.csdn.net/qq_44044341/article/details/134016055

在这里插入图片描述

State：agent 相对 environment 的一个状态

对于网格例子，他的State为 $s 1 、 s 2 、 s 3...$
State space：状态空间，为State的集合 $\mathcal{S}=\left\{s_i\right\}_{i=1}^9$
Action：对于每个 State 其采取的行动

类似于可以向 $a 1 、 a 2 、 a 3...$ 行走
Action space： $\mathcal{A}\left(s_i\right)=\left\{a_i\right\}_{i=1}^5$
State transition：在状态 $s 1$ 采取action $a 2$ ， $s_1 \stackrel{a_2}{\longrightarrow} s_2$ ；加入在状态 $s_1 \stackrel{a_1}{\longrightarrow} s_1$ 因为撞在了边界所以还是保持原来的。
Forbidden area：有两种情况
- $s_5 \stackrel{a_2}{\longrightarrow} s_6$ ，能够进去的但会有惩罚（本课程考虑的）
- $s_5 \stackrel{a_2}{\longrightarrow} s_5$ ，不能进去的
Tabular representation：可以用表格进行状态转移的表示
State transition probability：使用概率进行状态转移
$\begin{aligned} & p\left(s_2 \mid s_1, a_2\right)=1 \\ & p\left(s_i \mid s_1, a_2\right)=0 \quad \forall i \neq 2 \end{aligned}$
Policy：告诉agent我在哪个state应该采取怎样的action
Mathematical representation： $\pi$ 在强化学习里是条件概率
- 确定性策略
  $\begin{aligned} & \pi\left(a_1 \mid s_1\right)=0 \\ & \pi\left(a_2 \mid s_1\right)=1 \\ & \pi\left(a_3 \mid s_1\right)=0 \\ & \pi\left(a_4 \mid s_1\right)=0 \\ & \pi\left(a_5 \mid s_1\right)=0 \end{aligned}$
- 不确定性策略
  $\begin{aligned} & \pi\left(a_1 \mid s_1\right)=0 \\ & \pi\left(a_2 \mid s_1\right)=0.5 \\ & \pi\left(a_3 \mid s_1\right)=0.5 \\ & \pi\left(a_4 \mid s_1\right)=0 \\ & \pi\left(a_5 \mid s_1\right)=0 \end{aligned}$
Tabular representation：策略也可以用表格表示
reward：是一个实数，在做一个action后会得到的（可以认为是人与机器交互的接口）
- 正数：鼓励的
- 负数：不希望发生是一个惩罚
- grid-word例子：
  - 逃出边界： $r_{\text {bound }}=-1$
  - 进入forbidden地区： $r_{\text {forbid }}=-1$
  - 进入target地区： $r_{\text {target }}=+1$
  - 其余操作： $r = 0$
trajectory：state-action-reward链，例如下图所示 $s_1 \underset{r=0}{\stackrel{a_2}{\longrightarrow}} s_2 \underset{r=0}{\stackrel{a_3}{\longrightarrow}} s_5 \underset{r=0}{\stackrel{a_3}{\longrightarrow}} s_8 \underset{r=1}{\stackrel{a_2}{\longrightarrow}} s_9$
return：针对trajectory而言，沿着这个trajectory所有的reward的总和
discounted return：假设按照以下trajectory进行，则无穷长的轨迹来说它会发散掉。

$\text { trajectory }=s_1 \stackrel{a_2}{\longrightarrow} s_2 \stackrel{a_3}{\longrightarrow} s_5 \stackrel{a_3}{\longrightarrow} s_8 \stackrel{a_2}{\longrightarrow} s_9 \stackrel{a_5}{\longrightarrow} s_9 \stackrel{a_5}{\longrightarrow} s_9 \ldots$

$\text { return }=0+0+0+1+1+1+\cdots=\infty$
- discount rate： $\gamma \in[0,1)$ ，通过引入并与discounted return结合
  $\begin{aligned} \text { discounted return } & =0+\gamma 0+\gamma^2 0+\gamma^3 1+\gamma^4 1+\gamma^5 1+\ldots \\ & =\gamma^3\left(1+\gamma+\gamma^2+\ldots\right)=\gamma^3 \frac{1}{1-\gamma} . \end{aligned}$
  - 通过引入discount rate使得刚才发散掉变成一个有限的值
  - 平衡远或进的reward
    - $\gamma$ 接近于0，则reward接近于最近的
    - $\gamma$ 接近于1，则reward接近于更远的
episode(trial)：依据trajectory最终停在了terminal states

有些任务没有terminal states这样的任务称为continuting tasks。本课程将episode转变为continuting tasks。
Markov decision process(MDP)：
- 集合
  - State： $S$
  - Action： $A (s)$
  - Reward： $R (s, a)$
- 概率分布
  - $p\left(s^{\prime} \mid s, a\right)$ ：我当前在 $s$ 通过采取动作 $a$ 跳到 $s^{'}$ 概率多少
  - $\mid s, a)$ ：我当前状态 $s$ ，通过采取动作 $a$ ，获得奖励 $r$ 的概率
- 策略： $\pi(a \mid s)$ 我在状态s采取策略a的概率是多少
- 马尔可夫性质：无记忆性
  $\begin{aligned} & p\left(s_{t+1} \mid a_{t+1}, s_t, \ldots, a_1, s_0\right)=p\left(s_{t+1} \mid a_{t+1}, s_t\right), \\ & p\left(r_{t+1} \mid a_{t+1}, s_t, \ldots, a_1, s_0\right)=p\left(r_{t+1} \mid a_{t+1}, s_t\right) . \end{aligned}$