神经网络与深度学习5---循环神经网络

muyuu

已于 2022-03-06 16:52:42 修改

阅读量627

点赞数

分类专栏：深度学习文章标签：神经网络深度学习 rnn

于 2022-02-27 21:03:38 首次发布

本文链接：https://blog.csdn.net/muyuu/article/details/122857831

版权

深度学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

循环神经网络

循环神经网络
- 参数量
- 梯度不稳定性（长程依赖问题）
基于门控的循环神经网络
贪心搜索，束搜索

本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第6章：循环神经网络 的读书笔记，主要内容是一些本人觉得比较值得记录的内容，中间也会包括一些拓展和思考。

循环神经网络

传统的前馈神经网络在处理带有时序的数据（例如文本，语音等）时往往能力有限：1. 由于其全连接的结构使得无法学到数据的时序信息，2. 时序数据的输入长度通常是不定的，而前馈神经网络的输入是定长的。针对以上这些特性，研究员们推出了一类称为 循环神经网络 的深度模型结构。其主要模块结构如下：

写成数学表达式即为：
$\boldsymbol h^{(t)}=f(\boldsymbol h^{(t-1)},\boldsymbol x^{(t)};\Theta)$

为了让模型能够处理不定长的序列，其中 函数 $f$ 的参数 $\Theta$ 在所有时间步 $t$ 上是共享的。通过这个模块结构，循环神经网络同时解决了 无法学到时序信息 和 输入不定长 两个问题。

参数量

以最简单的单隐藏层RNN为例，输入层大小是：step_size $\times$ batch_size $\times$ vocab_size = s $\times$ b $\times$ v

输入层到隐藏层的公式为：
$\boldsymbol H_t = \phi(\boldsymbol X_t \boldsymbol U + \boldsymbol H_{t-1} \boldsymbol W + \boldsymbol b_h)$

其中 $\boldsymbol X_t \in \mathbb{R}^{b\times v}$ ， $\boldsymbol U \in \mathbb{R}^{v\times h}$ ， $\boldsymbol H_t, \boldsymbol H_{t-1} \in \mathbb{R}^{b\times h}$ ， $\boldsymbol W \in \mathbb{R}^{h\times h}$ 。因此该层参数量为 $v\times h + h\times h + h$ 。

隐藏层到输出层公式为：
$\boldsymbol O_t = \text{softmax}(\boldsymbol H_t \boldsymbol V + \boldsymbol b_o)$

其中 $\boldsymbol H_t \in \mathbb{R}^{b\times h}$ ， $\boldsymbol V \in \mathbb{R}^{h\times o}$ ， $\boldsymbol O_t \in \mathbb{R}^{b\times o}$ 。因此该层参数量为 $h\times o + h$ 。由于输出维度 $b\times o$ = batch_size $\times$ vocab_size，即 $\boldsymbol O_t$ 每一行为词表内所有词在位置 t 出现的概率大小。

计算参数量时，只需考虑一个时间步所需的参数，因为所有时间步是共享参数的。

梯度不稳定性（长程依赖问题）

仍以上述单隐藏层RNN为例，在不影响我们对反向传播过程分析的情况下，考虑偏置都为零，激活函数 $\phi(x) = x$ ，那么有：

$\begin{aligned} \boldsymbol h_t &= \boldsymbol x_t \boldsymbol U + \boldsymbol h_{t-1} \boldsymbol W\\ \boldsymbol o_t &= \boldsymbol h_t \boldsymbol V \end{aligned}$

目标函数的总体损失，是所有时间步上损失的均值：
$\frac{1}{T} \sum_{t=1}^T l(\boldsymbol o_t, y_t)$

输出层参数 $\boldsymbol V$ 的梯度计算比较简单：
$\frac{\partial L}{\partial \boldsymbol V} = \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol o_t} \cdot \frac{\partial \boldsymbol o_t}{\partial \boldsymbol V} = \frac{1}{T} \sum_{t=1}^T \boldsymbol h_t^T \frac{\partial l(\boldsymbol o_t, y_t)}{\partial \boldsymbol o_t}$

对于隐藏层，目标函数 $L$ 通过隐状态 $\boldsymbol h_1, \cdots, \boldsymbol h_T$ 依赖于隐藏层参数 $\boldsymbol U, \boldsymbol W$ ，那么应用链式法则有：
$\begin{aligned} \frac{\partial L}{\partial \boldsymbol U} &= \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol h_t} \cdot \frac{\partial \boldsymbol h_t}{\partial \boldsymbol U} = \sum_{t=1}^T \boldsymbol x_t^T \frac{\partial L}{\partial \boldsymbol h_t} \\ \frac{\partial L}{\partial \boldsymbol W} &= \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol h_t} \cdot \frac{\partial \boldsymbol h_t}{\partial \boldsymbol W} = \sum_{t=1}^T \boldsymbol h_{t-1}^T \frac{\partial L}{\partial \boldsymbol h_t} \end{aligned}$

下面只需要计算 $\frac{\partial L}{\partial \boldsymbol h_t}$ 。观察循环神经网络的参数流动，不难发现目标函数 $L$ 对 $\boldsymbol h_t$ 的依赖有两条路径： $\boldsymbol h_t \rightarrow \boldsymbol o_t \rightarrow L$ 以及 $\boldsymbol h_t \rightarrow \boldsymbol h_{t+1} \rightarrow \boldsymbol o_{t+1} \rightarrow L$ ，那么：
$\frac{\partial L}{\partial \boldsymbol h_t} = \frac{\partial L}{\partial \boldsymbol o_t} \cdot \frac{\partial \boldsymbol o_t}{\partial \boldsymbol h_t} + \frac{\partial L}{\partial \boldsymbol h_{t+1}} \cdot \frac{\partial \boldsymbol h_{t+1}}{\partial \boldsymbol h_t} = \frac{\partial L}{\partial \boldsymbol o_t} \boldsymbol V^T + \frac{\partial L}{\partial \boldsymbol h_{t+1}} \boldsymbol W^T$

上式满足等比关系，将其展开递归计算得：
$\frac{\partial L}{\partial \boldsymbol h_t} = \sum_{i=t}^T (\boldsymbol W)^{T-i} \boldsymbol V \frac{\partial L}{\partial \boldsymbol o_{T+t-i}}$

因此当 $T - i$ 足够大时，矩阵 $\boldsymbol W$ 小于1的特征值趋于消失，大于1的特征趋于发散，这会导致数值的不稳定。

代回到隐藏层参数的梯度 $\frac{\partial L}{\partial \boldsymbol U}， \frac{\partial L}{\partial \boldsymbol W}$ ，当时间步 $t$ 距离 $T$ 比较远时，这个时间步位置的梯度 $\boldsymbol x_t^T \frac{\partial L}{\partial \boldsymbol h_t}，\boldsymbol h_{t-1}^T \frac{\partial L}{\partial \boldsymbol h_t}$ 容易产生梯度消失和梯度爆炸的现象，导致难以建模这种长距离的依赖关系。（注：由于总梯度是各个时间步梯度分量的和，因此总梯度并不会消失，只是被近距离梯度所主导了）

由于RNN是在时间步上循环的，理论上这个循环可以发生在全数据集上，也就是说隐状态可以从数据集的第一个词循环流动到最后一个词。但这样会导致计算量巨大并且更容易发生梯度消失或梯度爆炸，因此一种常见的做法是在每一个batch结束时分离梯度，也就是说 $\leq$ 截断长度 $\sigma$ 。这样会使得该模型主要侧重于短期影响，而不是长期影响。这在现实中是可取的，因为它会将估计值偏向更简单和更稳定的模型。

基于门控的循环神经网络

前面提到减轻梯度消失or爆炸的一种方式是适当得分离梯度，也就是说放弃长期的历史影响，只保留短期的历史影响。但现实的情况可能是更复杂的：

某些早期词元对于后面词元的预测有非常重要的影响，我们希望有某种机制能够在一个记忆元里存储重要的早期信息。
一些词元没有相关的观测值。例如，在对网页内容进行情感分析时，可能有一些辅助HTML代码与网页传达的情绪无关。我们希望有一些机制来跳过隐状态表示中的此类词元。

针对上面的需求，研究人员设计出了一系列基于“门控”的循环神经网络，这些“门”的主要作用就是控制每一个时间步历史信息的去留。下面介绍两类有代表性的门控系统：

LSTM

LSTM在隐状态 $\boldsymbol h_t$ 和输入特征 $\boldsymbol x_t$ 之外还引入了一个新单元：记忆单元 $\boldsymbol c_t$ 。并且隐状态 $\boldsymbol h_t$ 直接由记忆单元 $\boldsymbol c_t$ 决定：
$\boldsymbol h_t = \boldsymbol o_t \odot \text{tanh}(\boldsymbol c_t)$

其中 $\odot$ 指按元素乘积。 注意上式的 $\boldsymbol o_t$ 不是上一节中使用的输出层神经元，而是LSTM中的“输出门控单元”。

记忆单元 $\boldsymbol c_t$ 顾名思义，是用来控制输入和遗忘（跳过）的单元，它记录了到当前步为止的历史信息，具体定义为：
$\boldsymbol c_t = \boldsymbol f_t \odot \boldsymbol c_{t-1} + \boldsymbol i_t \odot \tilde{\boldsymbol c_t}$

其中 $\boldsymbol f_t$ 是 “遗忘门控单元”， $\boldsymbol i_t$ 是 “输入门控单元”。而 $\tilde{\boldsymbol c_t}$ 称为 “候选记忆单元”，它是上一时间步隐状态 $\boldsymbol h_{t-1}$ 和该时间步输入特征 $\boldsymbol x_t$ 的非线性函数：
$\tilde{\boldsymbol c_t} = \text{tanh}(\boldsymbol x_t \boldsymbol U_c + \boldsymbol h_{t-1}\boldsymbol W_c + \boldsymbol b_c)$

到此为止，我们就引出了LSTM中定义的全部三个门控单元：

遗忘门控单元 $\boldsymbol f_t$ ，用于控制上一个时间步记忆单元 $\boldsymbol c_{t-1}$ 对当前时间步记忆单元 $\boldsymbol c_t$ 的影响
输入门控单元 $\boldsymbol i_t$ ，用于控制当前时间步候选记忆单元 $\tilde{\boldsymbol c_t}$ 对当前时间步记忆单元 $\boldsymbol c_t$ 的影响
输出门控单元 $\boldsymbol o_t$ ，用于控制当前时间步记忆单元 $\boldsymbol c_t$ 有多少信息要输出给当前步隐状态 $\boldsymbol h_t$

标准的“门”应该是一个{0，1}的二值函数，但是为了求导方便，以及门控的灵活性，我们使用sigmiod函数来模拟“门”的效果：
$\begin{aligned} \boldsymbol f_t &= \text{sigmoid}(\boldsymbol x_t \boldsymbol U_f + \boldsymbol h_{t-1}\boldsymbol W_f + \boldsymbol b_f)\\ \boldsymbol i_t &= \text{sigmoid}(\boldsymbol x_t \boldsymbol U_i + \boldsymbol h_{t-1}\boldsymbol W_i + \boldsymbol b_i)\\ \boldsymbol o_t &= \text{sigmoid}(\boldsymbol x_t \boldsymbol U_o + \boldsymbol h_{t-1}\boldsymbol W_o + \boldsymbol b_o)\\ \end{aligned}$

当 $\boldsymbol f_t = 0, \boldsymbol i_t = 1$ 时，记忆单元将历史信息清空，并将候选状态向量 $\tilde{\boldsymbol c_t}$ 写入。但此时记忆单元 $\boldsymbol c_t$ 依然和上一时刻的历史信息相关。当 $\boldsymbol f_t = 1, \boldsymbol i_t = 0$ 时，记忆单元将复制上一时刻的内容，不写入新的信息。

总结一下LSTM的计算流程：

用上一时间步隐状态 $\boldsymbol h_{t-1}$ 和该时间步输入特征 $\boldsymbol x_t$ 分别计算出三个门 $\boldsymbol f_t, \boldsymbol i_t, \boldsymbol o_t$ 以及候选记忆单元 $\tilde{\boldsymbol c_t}$ ：
$\begin{aligned} \boldsymbol f_t &= \text{sigmoid}(\boldsymbol x_t \boldsymbol U_f + \boldsymbol h_{t-1}\boldsymbol W_f + \boldsymbol b_f)\\ \boldsymbol i_t &= \text{sigmoid}(\boldsymbol x_t \boldsymbol U_i + \boldsymbol h_{t-1}\boldsymbol W_i + \boldsymbol b_i)\\ \boldsymbol o_t &= \text{sigmoid}(\boldsymbol x_t \boldsymbol U_o + \boldsymbol h_{t-1}\boldsymbol W_o + \boldsymbol b_o)\\ \tilde{\boldsymbol c_t} &= \text{tanh}(\boldsymbol x_t \boldsymbol U_c + \boldsymbol h_{t-1}\boldsymbol W_c + \boldsymbol b_c) \end{aligned}$
结合遗忘门 $\boldsymbol f_t$ 和输入门 $\boldsymbol i_t$ 来更新记忆单元 $\boldsymbol c_t$ ：
$\boldsymbol c_t = \boldsymbol f_t \odot \boldsymbol c_{t-1} + \boldsymbol i_t \odot \tilde{\boldsymbol c_t}$
结合输出门 $\boldsymbol o_t$ 将记忆单元 $\boldsymbol c_t$ 的信息传递给隐状态 $\boldsymbol h_t$ ：
$\boldsymbol h_t = \boldsymbol o_t \odot \text{tanh}(\boldsymbol c_t)$

LSTM为什么可以缓解梯度不稳定现象

回忆上一节中解释传统RNN的梯度不稳定性，主要问题出在：

$\frac{\partial L}{\partial \boldsymbol h_t} = \sum_{i=t}^T (\frac{\partial \boldsymbol h_{t+1}}{\partial \boldsymbol h_t})^{T-i} \frac{\partial \boldsymbol o_t}{\partial \boldsymbol h_t} \frac{\partial L}{\partial \boldsymbol o_{T+t-i}} = \sum_{i=t}^T (\boldsymbol W)^{T-i} \boldsymbol V \frac{\partial L}{\partial \boldsymbol o_{T+t-i}}$

由于不同时间步的 $\frac{\partial \boldsymbol h_{t+1}}{\partial \boldsymbol h_t}$ 恒为 $\boldsymbol W$ ，造成了 $\boldsymbol W$ 矩阵的连乘，引发了梯度不稳定现象。

而在LSTM中，隐状态间的循环关系转变成了记忆单元间的循环关系，因此我们只需要看 $\frac{\partial \boldsymbol c_t}{\partial \boldsymbol c_{t-1}}$ 的值。观察LSTM的流动图，不难发现 $\boldsymbol c_{t-1}$ 到 $\boldsymbol c_t$ 的流动要经过 $\boldsymbol f_t, \boldsymbol i_t, \tilde{\boldsymbol c_t}$ ：

为了公式简洁，同样先假设激活函数导数都是1，那么有：
$\begin{aligned} \frac{\partial \boldsymbol c_t}{\partial \boldsymbol c_{t-1}} &= \frac{\partial \boldsymbol c_t}{\partial \boldsymbol f_t} \frac{\partial \boldsymbol f_t}{\partial \boldsymbol h_{t-1}} \frac{\partial \boldsymbol h_{t-1}}{\partial \boldsymbol c_{t-1}} + \frac{\partial \boldsymbol c_t}{\partial \boldsymbol i_t} \frac{\partial \boldsymbol i_t}{\partial \boldsymbol h_{t-1}} \frac{\partial \boldsymbol h_{t-1}}{\partial \boldsymbol c_{t-1}} + \frac{\partial \boldsymbol c_t}{\partial \tilde{\boldsymbol c_t}} \frac{\partial \tilde{\boldsymbol c_t}}{\partial \boldsymbol h_{t-1}} \frac{\partial \boldsymbol h_{t-1}}{\partial \boldsymbol c_{t-1}} + \frac{\partial \boldsymbol c_t}{\partial \boldsymbol c_{t-1}}\\ &= \boldsymbol c_{t-1} \boldsymbol W_f \boldsymbol o_{t-1} + \tilde{\boldsymbol c_t} \boldsymbol W_i \boldsymbol o_{t-1} + \boldsymbol i_t \boldsymbol W_c \boldsymbol o_{t-1} + \boldsymbol f_t \end{aligned}$

观察到加式前三项中的 $\boldsymbol W_f, \boldsymbol W_i, \boldsymbol W_c$ ，跟传统RNN中的 $\frac{\partial \boldsymbol h_{t+1}}{\partial \boldsymbol h_t} = \boldsymbol W$ 一样，都是不随时间步发生变化的，这会导致矩阵连乘，进而造成梯度不稳定现象。 但是最后一项 $\boldsymbol f_t$ 对于不同时间步是不一样的，因此不会发生上述那种出现矩阵的幂的情况，缓解了梯度消失的情况。

而且根据上面的分析，我们也可以得出结论：遗忘门 $\boldsymbol f_t$ 有助于捕获序列中的长期依赖关系。

LSTM更多是解决梯度消失的问题，仍然有可能出现梯度爆炸。但由于 LSTM 的其他路径非常崎岖，和普通 RNN 相比多经过了很多次激活函数（导数都小于 1），因此 LSTM 发生梯度爆炸的频率要低得多。而且实践中梯度爆炸一般可以通过梯度裁剪来解决。

GRU

另一个常用的门控单元是GRU，它实际是对LSTM的一种简化，首先抛弃了记忆单元 $\boldsymbol c_t$ ，循环部分依然在隐状态间发生。而且注意到LSTM中互补关系的遗忘门 $\boldsymbol f_t$ 和输入门 $\boldsymbol i_t$ ，具有一定冗余性，因此GRU只用一个 更新门 $\boldsymbol z_t$ 来控制输入和遗忘间的平衡：
$\boldsymbol h_t = \boldsymbol z_t \odot \boldsymbol h_{t-1} + (1-\boldsymbol z_t) \odot \tilde{\boldsymbol h_t}$

对候选隐状态的定义也跟LSTM有所不同，引入了一个新的门控单元 重置门 $\boldsymbol r_t$ ：
$\tilde{\boldsymbol h_t} = \text{tanh}(\boldsymbol x_t \boldsymbol U_h + (\boldsymbol r_t \odot \boldsymbol h_{t-1})\boldsymbol W_h + \boldsymbol b_h)$

当 $\boldsymbol z_t = 0，\boldsymbol r_t = 1$ 时，GRU退化为简单循环网络
当 $\boldsymbol z_t = 0，\boldsymbol r_t = 0$ 时，GRU退化为前馈神经网络
当 $\boldsymbol z_t = 1$ 时，当前状态 $\boldsymbol h_t$ 等于上一时刻状态 $\boldsymbol h_{t-1}$ ，和当前输入 $\boldsymbol x_t$ 无关

重置门 $\boldsymbol r_t$ 和更新门 $\boldsymbol z_t$ 的定义方式与LSTM中的门控单元一致：
$\begin{aligned} \boldsymbol r_t &= \text{sigmoid}(\boldsymbol x_t \boldsymbol U_r + \boldsymbol h_{t-1}\boldsymbol W_r + \boldsymbol b_r)\\ \boldsymbol z_t &= \text{sigmoid}(\boldsymbol x_t \boldsymbol U_z + \boldsymbol h_{t-1}\boldsymbol W_z + \boldsymbol b_z) \end{aligned}$

再来看看GRU是否也可以解决梯度消失问题，计算 $\frac{\partial \boldsymbol h_t}{\partial \boldsymbol h_{t-1}}$ ，观察GRU的计算图，从 $\boldsymbol h_{t-1}$ 到 $\boldsymbol h_t$ 要经过 $\boldsymbol z_t$ 和 $\tilde{\boldsymbol h_t}$ ：

$\begin{aligned} \frac{\partial \boldsymbol h_t}{\partial \boldsymbol h_{t-1}} &= \frac{\partial \boldsymbol h_t}{\partial \boldsymbol z_t} \frac{\partial \boldsymbol z_t}{\partial \boldsymbol h_{t-1}} + \frac{\partial \boldsymbol h_t}{\partial \tilde{\boldsymbol h_t}} \frac{\partial \tilde{\boldsymbol h_t}}{\partial \boldsymbol h_{t-1}} + \frac{\partial \boldsymbol h_t}{\partial \boldsymbol h_{t-1}}\\ &= (\boldsymbol h_{t-1} - \tilde{\boldsymbol h_t})\boldsymbol W_z + (1-\boldsymbol z_t)\boldsymbol r_t \boldsymbol W_h + \boldsymbol z_t \end{aligned}$

与LSTM一样，上式的最后一项 $\boldsymbol z_t$ 在不同时间步是不一样的，因此连乘也不会出现矩阵幂，缓解了梯度消失的问题。

同样类似LSTM的分析，可以得出结论：GRU中更新门 $\boldsymbol z_t$ 更有助于捕获序列中的长期依赖关系。

LSTM的参数量是传统RNN的四倍（分别是三个门以及候选记忆单元），而GRU对LSTM做了简化，参数量只有传统RNN的三倍（两个门及候选隐状态）

贪心搜索，束搜索

由于循环网络的输入和输出一般都是序列，当输出序列的长度为 n，输出类别的大小为 | $\mathcal{Y}$ | 时，求解最优序列是一个复杂度为 $O(|\mathcal{Y}|^n)$ 的问题，而这样的计算量在许多实际问题中是高得惊人，以至于计算机几乎不可能计算出来。

考虑到计算成本，在实际使用中，我们通常会牺牲一定的精度，采用更有效率的搜索方法。其中使用最广泛的是 贪心搜索 和 束搜索 。

贪心搜索

贪心搜索是指在输出序列的每一个时间步 $t$ ，都直接选择概率最高的词元作为该时间步的输出，即：
$y_{t}^{pred} = \text{argmax}_{y_t \in \mathcal{Y}} \ P(y_t|y_1,\cdots, y_{t-1}, X)$

注意， $\{\text{argmax}_{y_1 \in \mathcal{Y}} \ P(y_1), \cdots, \text{argmax}_{y_n \in \mathcal{Y}} \ P(y_n)\}$ 等价于 $\text{argmax} \ P(y_1,y_2,\cdots,y_n)$ 当且仅当 $y_1, \cdots, y_n$ 相互独立。但是循环网络中，每一个时间步的输出 $y_t$ 是依赖于前面 $t - 1$ 个时间步的输出 $y_1, \cdots, y_{t-1}$ 的。因此贪心搜索不能保证全局最优。

但是贪心搜索将计算量由原来的 $O(|\mathcal{Y}|^n)$ 降到了 $O(|\mathcal{Y}|n)$ 。

束搜索

束搜索是介于穷举搜索和贪心搜索之间的方法。它有一个超参数 k，在每一个时间步，束搜索会选择所有候选序列里面概率最高的 k 个序列。

假设输出词表 $\mathcal{Y} = \{A, B, C, D, E\}$ ，束宽 k=2，时间步1处概率最高的为 A和C。那么在时间步2处，我们有十个候选序列：{AA, AB, AC, AD, AE} 和 {CA, CB, CC, CD, CE}。假如其中最大的两个是 AB 和 CE，那么时间步3处依然有十个候选序列：{ABA, ABB, ABC, ABD, ABE} 和 {CEA, CEB, CEC, CED, CEE}，我们依然是在其中选两个概率最大的序列 …

如果最终候选序列的长度不一致，那么在计算每个候选序列的概率时，需要乘上一个长度惩罚因子 $\frac{1}{|L|^{\alpha}}$ （ $\alpha$ 一般取0.75），即 $\frac{1}{|L|^{\alpha}} \sum_{t=1}^{|L|} \text{log} P(y_t|y_1,\cdots,y_{t-1},X)$

束搜索的计算量是 $O(|\mathcal{Y}|nk)$ ，介于穷举搜索和贪心搜索之间。

muyuu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习5---循环神经网络

循环神经网络循环神经网络参数量梯度不稳定性（长程依赖）本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中第6章：循环神经网络的读书笔记，主要内容是一些本人觉得比较值得记录的内容，中间也会包括一些拓展和思考。循环神经网络传统的前馈神经网络在处理带有时序的数据（例如文本，语音等）时往往能力有限：1. 由于其全连接的结构使得无法学到数据的时序信息，2. 时序数据的输入长度通常是不定的，而前馈神经网络的输入是定长的。针对以上这些特性，研究员们推出了一类称为循环神经网络的深度模型结构。其主要模块结构如下
复制链接

扫一扫