DataWhale-深度学习2阶段-打卡1

不要生气--

已于 2024-01-17 20:20:23 修改

阅读量859

点赞数 20

分类专栏： Datawhale 文章标签：深度学习人工智能

于 2024-01-17 20:13:53 首次发布

本文链接：https://blog.csdn.net/qq_65964945/article/details/135659341

版权

Datawhale 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

马尔可夫模型、DQN算法回顾（2024-1-15~2024-1-17）

马尔可夫决策

1.流程图

在这里插入图片描述

2.马尔可夫性质

$\tag{2.2} P(s_{t+1}|s_t) = P(s_{t+1}|s_0, s_1,\cdots,s_t)$

在给定的历史状态

$s_0, s_1,\cdots,s_t$

的情况下，某个状态的未来只与当前状态

$s_t$

有关系，于历史状态无关。因为这允许我们在没有考虑系统完整历史的情况下预测和控制其行为

3.回报（return）

$\tag{2.3} G_t = r_{t+1} + r_{t+2} + \cdots + r_T$

T表示最后一个时步。该公式只适合有限步数的情况。有的任务例如人造卫星在太空工作需要直到报废才停止，则为持续性任务。此时 $T=\infty$
为了解决这种问题，引入一个折扣因子(discount factor) $\gamma$ ,表达式如下

$\tag{2.4} G_t = r_{t+1} + \gamma r_{t+2} + \cdots = \sum_{k=0}^{\infty}\gamma^k r_{t+k+1}$

其中 $0\leq \gamma \leq 1$ 。 $\gamma$ 越大，对未来的奖励越重视，反之越小。
这样做的好处是会让当前时步的回报 $G_t$ 跟下一个时步 $G_{t+1}$ 的回报是有所关联的，

$\tag{2.5} \begin{aligned} G_t & \doteq r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\gamma^3 r_{t+4}+\cdots \\ & =r_{t+1}+\gamma\left(r_{t+2}+\gamma r_{t+3}+\gamma^2 r_{t+4}+\cdots\right) \\ & =r_{t+1}+\gamma G_{t+1} \end{aligned}$

该公式在t<T时成立，当t=T时， $G_T=r_{T+1}=0$ ，因为没有下一个时步了。

4.状态转移矩阵

$\tag{2.6} P_{ss'} = P(S_{t+1}=s'|S_{t}=s)$

即当前状态是 $s$ 时，下一个状态是 $s^{'}$ 的概率，其中大写的 $S$ 表示所有状态的集合，即 $S=\{s_1,s_2,s_3\}$
状态数有限，则我们可以列出状态转换矩阵，如下

$\tag{2.7} P_{ss'}=\begin{pmatrix} p_{11} & p_{12} & \cdots & p_{1n}\\ p_{21} & p_{22} & \cdots & p_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ p_{n1} & p_{n2} & \cdots & p_{nn} \end{pmatrix}$

每一行加起来为1。状态矩阵是环境的一部分，它是固定的，不会随着时间变化而变化。
在马尔可夫链的基础上增加奖励则可得到马尔可夫奖励过程(Markov reward process, MRP)。MRP是一个五元组
即用一个五元组 $<S,A,R,P,\gamma>$ 来表示。其中 $S$ 表示状态空间，即所有状态的集合， $A$ 表示动作空间， $R$ 表示奖励函数， $P$ 表示状态转移矩阵， $\gamma$ 表示折扣因子。

DQN

1.深度网络

Q表和神经网络的区别：神经网络是一个函数，只需要输入就可以表达Q表中的多个状态。
$\tag{7.4} Q\left(s_{i}, a_{i} ; \theta\right) \leftarrow Q\left(s_{i}, a_{i} ; \theta\right)+\alpha[y_i-Q\left(s_{i}, a_{i} ; \theta\right)]$
在 $Q - l e an r in g$ 的基础上增加了网络参数 $\theta$ .

以损失函数的形式并用梯度下降的方式来求解 $\theta$ .
$\tag{7.5} \begin{aligned} L(\theta)=\left(y_{i}-Q\left(s_{i}, a_{i} ; \theta\right)\right)^{2} \\ \theta_i \leftarrow \theta_i - \alpha \nabla_{\theta_{i}} L_{i}\left(\theta_{i}\right) \end{aligned}$
DQN算法基于TD更新，需要判断是否为终止状态。

2.经验回放

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.目标网络

在实践中每个若干步才把每步更新的当前网络参数复制给目标网络，避免 $Q$ 值的估计发散

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这样可以保证收集到足够多的"证据"。如果当前有个小批量样本导致模型对 $Q$ 值进行了较差的过估计，如果接下来从经验回放中提取到的样本正好连续几个都这样的，很有可能导致 $Q$ 值的发散。

对 $Q$ 值进行了较差的过估计，如果接下来从经验回放中提取到的样本正好连续几个都这样的，很有可能导致 $Q$ 值的发散。

4.伪代码

不要生气--

关注

20
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
DataWhale-深度学习2阶段-打卡1

$\tag{2.2}$$在给定的历史状态s0s1⋯st的情况下，某个状态的未来只与当前状态st有关系，于历史状态无关。因为这允许我们在没有考虑系统完整历史的情况下预测和控制其行为。
复制链接

扫一扫