RNN的梯度消失与可以看懂的解决方法

无名草鸟

已于 2022-06-02 15:38:35 修改

阅读量4.5k

点赞数 11

分类专栏： ai 文章标签：自然语言处理 rnn

于 2022-04-14 11:35:54 首次发布

本文链接：https://blog.csdn.net/qq_41020633/article/details/124044086

版权

ai 专栏收录该内容

20 篇文章

订阅专栏

本文深入探讨了RNN中的梯度消失和爆炸问题，解释了其数学原理，并详细介绍了LSTM如何通过遗忘门和细胞状态的加性结构来缓解这一问题。LSTM通过平衡不同子梯度，防止梯度消失，确保参数有效更新，从而在长序列任务中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文参考了李宏毅机器学习视频、RNN梯度消失和爆炸的原因、LSTM如何解决梯度消失问题（很清晰但要梯子）、神经网络中存在的问题、LSTM原理详解（这篇也不错但是有点点拼拼凑凑）

【NLP基础理论】RNN 中简单介绍了RNN的基础理论，如果对RNN还没有认知的可以先看这篇。

直观感受梯度消失和爆炸（特例）

下方是一个极其简单的RNN，1000 个输入（时间步），除了第一个输入为 1 以外，其余均为 0。中间RNN函数为线性函数 y = x，没有bias，输入和输出的参数都为 1，输入给下一个 RNN 的参数为 w。那么根据公式
$s_i=ws_{i-1}+1\cdot x_i \\ y_i=\sigma(1\cdot s_i)$
可以得到最后 $y_{1000}$ 的输出为 $w^{999}$ 。
在这里插入图片描述

当我们尝试去改变参数 $w$ 的时候，我们会发现，只要参数有一点变化，对于长句子（长输入）来说，最后一向的输出会有很大的变化！
比如 $w$ 从 1 变成 1.01，那么最后的输出会从 1 变成约 20000，当 $w$ 从 1 变成小于 1 的数字时，最后输出直接约等于 0。
梯度，我们也可以理解为直观地看到参数 $w$ 的变化会引起最后输出多大的变化。
在这里插入图片描述
因此上图中绿色部分 $\frac{\partial L}{\partial w}$ 值较大，而黄色部分值较小。但我们可以通过对于梯度较大的地方用较小的learning rate来对冲，反之亦然。可是这很难解决，因为RNN这个性质会导致梯度时大时小，error surface就会非常崎岖。

数学感受梯度消失和梯度爆炸

简单回忆反向传播（BP）的流程：

这是一个简单的神经网络，其中 $\theta_{21}^{(2)}$ 代表第 2 层参数链接了前面第 2 个神经元和后面第 1 个神经元的参数； $z^1_{\ 1},a^1_{\ 1}$ 分别表示第一层第一个激活函数的输入值和输出值。此处所有激活函数为sigmoid函数。
在这里插入图片描述

误差函数 $E=\frac{1}{2}(y-\hat{y})^2$
参数迭代公式
$\theta_{jk}^{(l)} \leftarrow \theta_{jk}^{(l)} + \Delta \theta_{jk}^{(l)}\\ where,\theta_{jk}^{(l)}=-\eta\frac{\partial E}{\partial \theta_{jk}^{(l)}} = \eta \delta^{(l)}_ka^{(l-1)}_j$
以 $\theta^{(2)}_{11}$ 为例，最后一层参数更新公式为：
$E=\frac{1}{2}(y-a_1^{(2)})^2\\ \delta_k^{(l)}=(1-\sigma(z^{(l)}_k))\sigma(z^{(l)}_k)(y-a_k^{(l)})$
推导： $\frac{\partial E}{\partial \theta_{11}^{(2)}}=\frac{\partial E}{\partial a^2_{\ 1}}\cdot \frac{\partial a^2_{\ 1}}{\partial z^2_{\ 1}}\cdot \frac{\partial z^2_{\ 1}}{\partial \theta_{11}^{(2)}}$
其中 $E=\frac{1}{2}(y-a^2_{\ 1})^2 \rightarrow \frac{\partial E}{\partial a^2_{\ 1}}=-y+a^2_{\ 1}\\ a^2_{\ 1}=\frac{1}{1+e^{-z^2_{\ 1}}} \rightarrow \frac{\partial a^2_{\ 1}}{\partial z^2_{\ 1}}=\frac{e^{-z^2_{\ 1}}}{(1+e^{-z^2_{\ 1}})^2}=(1-\sigma(z^2_{\ 1}))\sigma(z^2_{\ 1})\\ z^2_{\ 1}=a^1_{\ 0} \cdot \theta_{01}^{(2)}+a^1_{\ 1} \cdot \theta_{11}^{(2)}+a^1_{\ 2}\cdot \theta_{21}^{(2)} \rightarrow \frac{\partial z^2_{\ 1}}{\partial \theta_{11}^{(2)}}=a^1_{\ 1}$
以 $\theta ^{(1)}_{11}$ 其它层的参数更新公式为：
$\delta_k^{(l)}=(1-\sigma(z^{(l)}_k))\sigma(z^{(l)}_k)\theta_{k1}^{(l+1)}\delta_1^{(l+1)}$
推导： $\frac{\partial E}{\partial \theta_{11}^{(2)}}=\frac{\partial E}{\partial a^2_{\ 1}}\cdot \frac{\partial a^2_{\ 1}}{\partial z^2_{\ 1}}\cdot \frac{\partial z^2_{\ 1}}{\partial a^2_{\ 1}}\cdot \frac{\partial a^1_{\ 1}}{\partial z^1_{\ 1}}\cdot \frac{\partial z^1_{\ 1}}{\partial \theta ^{(1)}_{11}}$
这个推导没有出现一个神经元会有两个 $E$ 共同带来的误差。如果有多个的话，这要把每个 $E$ 的值相加即可。

题外话：基本上所有的均方误差损失函数（MSE） 都是以下形式表现： $L(Y|f(x))=\frac{1}{N}\sum_{i=1}^{N}(Y_i-f(x_i))^2$
但后来突然发现还有将 $N$ 变为 $2 N$ 作为分母使用的（参考微软github）
题外话结束

简单回忆 SimpleRNN 模型：

$S_i = tanh(W_sS_{i-1}+W_xx_i+b_1)\\ O_i = \sigma (W_oS_i+b_2)$
在这里插入图片描述
好的，回忆完了，RNN会有多个输出，这里如果要使用BP的话一定是要考虑到时间的，因此RNN的BP叫做时间反向传播-BPTT（Back Propagation Through Time）

开始BPTT

（参考链接）
再从最简单的例子开始，下图是只有三个输入的RNN，没有任何激活函数：
$s_1 = w_xx_1+w_ss_0+b_1,y_1=w_ys_1+b_2\\ s_2 = w_xx_2+w_ss_1+b_1,y_2=w_ys_2+b_2\\ s_3 = w_xx_2+w_ss_2+b_1,y_2=w_ys_3+b_2$
在这里插入图片描述
那在 $t = 3$ 的时刻，误差函数为 $E_3=\frac{1}{2}(Y_3-y_3)^2$ 。
一次训练下所有的误差值为单个误差之和：
$\sum_{t=0}^{T}E_t$
而我们的目标是去更新所有的参数 $w_x,w_s,w_y$ ，所以需要计算误差项的梯度。
RNN中误差项的梯度并更新参数：
$\frac{\partial E}{\partial W} = \sum_{t=1}^T\frac{\partial E_t}{\partial W}\\ W \leftarrow W - \eta \frac{\partial E}{\partial W}$
此处，我们对 $t = 1$ 时刻入手开始更新：
$\frac{\partial E_1}{\partial w_y}=\frac{\partial E_1}{\partial y_1}\frac{\partial y_1}{\partial w_y}\\ \frac{\partial E_1}{\partial w_x}=\frac{\partial E_1}{\partial y_1}\frac{\partial y_1}{\partial s_1}\frac{\partial s_1}{\partial w_x}\\ \frac{\partial E_1}{\partial w_s}=\frac{\partial E_1}{\partial y_1}\frac{\partial y_1}{\partial s_1}\frac{\partial s_1}{\partial w_s}\\$
如果从 t=3 时刻开始，那么就需要每一次向后传递时，分一部分给 $w_x$ 再分一部分错误给后面。
在这里插入图片描述

$\frac{\partial E}{\partial w_x}=\frac{\partial E_3}{\partial y_3}\frac{\partial y_3}{\partial s_3}\frac{\partial s_3}{\partial w_x}+\frac{\partial E_3}{\partial y_3}\frac{\partial y_3}{\partial s_3}\frac{\partial s_3}{\partial s_2}\frac{\partial s_2}{\partial w_x}+\frac{\partial E_3}{\partial y_3}\frac{\partial y_3}{\partial s_3}\frac{\partial s_3}{\partial s_2}\frac{\partial s_2}{\partial s_1}\frac{\partial s_1}{\partial w_x}\\ \frac{\partial E}{\partial w_s}=\frac{\partial E_3}{\partial y_3}\frac{\partial y_3}{\partial s_1}\frac{\partial s_3}{\partial w_s}+\frac{\partial E_3}{\partial y_3}\frac{\partial y_3}{\partial s_3}\frac{\partial s_3}{\partial s_2}\frac{\partial s_2}{\partial w_s}+\frac{\partial E_3}{\partial y_3}\frac{\partial y_3}{\partial s_3}\frac{\partial s_3}{\partial s_2}\frac{\partial s_2}{\partial s_1}\frac{\partial s_1}{\partial w_s}\\(因为s_3是包含了s_2和s_1的)$
对上述偏导公式进行总结，得出所有时刻的梯度之和：
$\frac{\partial E}{\partial w_x}=\sum_{k=0}^t\frac{\partial E_t}{\partial y_t}\frac{\partial y_t}{\partial s_t}(\prod_{j=k+1}^t\frac{\partial s_j}{\partial s_{j-1}})\frac{\partial s_k}{\partial w_x}$
$w_s$ 同上。
因为上述式子是假设没有任何激活函数，下式是任意时刻的梯度传递到时间步1时候的公式：
$\frac{\partial E_k}{\partial w_x}=\frac{\partial E_k}{\partial y_k}\frac{\partial y_k}{\partial s_k}(\prod_{t=2}^k\frac{\partial s_t}{\partial s_{t-1}})\frac{\partial s_1}{\partial w_x}$
因此，
在没有任何激活函数的情况下 $\prod_{j=k+1}^t\frac{\partial s_j}{\partial s_{j-1}}$ 是 $t - k - 1$ 个 $w_s$ 相乘。那么 $w_s$ 的大小就会影响梯度爆炸还是消失。
若有激活函数 : $s_j=tanh(w_ss_{j-1}+w_xx_j)$
求偏导则先求 $t a n h (x)$ 的导，再求 $x$ 的导： $\frac{\partial s_j}{\partial s_{j-1}}=tanh'(w_ss_{j-1}+w_xx_j)\cdot \frac{\partial}{\partial s_{j-1}}[w_ss_{j-1}+w_xx_j]\\ =tanh'(w_ss_{j-1}+w_xx_j)\cdot w_s$
在这里插入图片描述

$t a n h^{'}$ 取值在[0,1]，后面还是有 $w_s$ ！可恶。
(补充：激活函数 $tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$ )

重点！！！
所以到这里就可以发现，只要我时间步长够长，就会有越来越多的 $w_s$ 相乘，如果说 $w_s$ 正好也在 [0,1] ，配合上 $t a n h^{'}$ ，我们的梯度就消失了（所以我们可以认为是 $t a n h^{'}$ 和 $w_s$ 两者一起导致梯度消失）。
但当然，因为变量终究还是 $w_s$ (可能会大于1，但 $t a n h^{'}$ 肯定小于等于1)，如果 $w_s$ 大的能抵消掉那么多个 $t a n h^{'}$ 相乘的时候，就会造成梯度爆炸。

如果梯度消失，那么
$\frac{\partial E}{\partial W} = \sum_{t=1}^T\frac{\partial E_t}{\partial W} \rightarrow 0$
这也就导致我们的参数在合理的时间内就没怎么更新了。
$\leftarrow W - \eta \frac{\partial E}{\partial W} \approx W$

干掉它:)

(参考链接)

现在知道了梯度消失和爆炸的问题就在于 $\frac{\partial E_t}{\partial w_x}=\sum_{k=0}^t\frac{\partial E_t}{\partial y_t}\frac{\partial y_t}{\partial s_t}(\prod_{j=k+1}^t\frac{\partial s_j}{\partial s_{j-1}})\frac{\partial s_k}{\partial w_x}$
中的 $\prod_{j=k+1}^t\frac{\partial s_j}{\partial s_{j-1}}$ ，最直观的想法就是让它乘来乘去一直约为 1 或者一直约为 0 ，这样就不会对整体的梯度有很大的影响。

LSTM 可以解决。（Clockwise RNN 和 SCRN 也可以，但这里不讲了）

简单回忆LSTM

（一个非常详细的LSTM介绍）
下面是三个时间步长的LSTM， $t$ 时的输入是 $h_{t-1},x_{t}]$ 当前输入与上一个的输出相结合。三个橙色的 $\sigma$ 函数是LSTM的三个gate，从左至右分别为遗忘门、输入门以及输出门。
在这里插入图片描述

遗忘门 根据新的输入，经过激活函数之后，得到一个 0 - 1 的值，这个值决定了过去的记忆 $c_{t-1}$ 有多少被保留。：

$f_t = \sigma (W_f\cdot [h_{t-1},x_t])$ 在这里插入图片描述

输入门 控制了新输入有多少要被加入到记忆中，但这里的输出还需要配合上神经网络觉得新输入中有用的部分。
$tanh(W_c\cdot [h_{t-1},x_t])*\sigma(W_i \cdot [h_{t-1},x_t])$
这里会拆成以下两个矩阵进行对应相乘：
$\tilde{c_t} = tanh(W_c \cdot [h_{t-1},x_t])\\ i_t=\sigma(W_i \cdot[h_{t-1},x_t])$ 在这里插入图片描述

输出门 控制了有多少信息会被编辑到记忆细胞，作为下一个时间步的输入。
$h_t = \sigma(W_o \cdot [h_{t-1},x_t])*tanh(c_t)$
在这里插入图片描述
记忆细胞 的内容就根据上述结果进行更新：
$c_t=c_{t-1} * f_t + \tilde{c_t}*i_t$

题外话：看到这里你会发现为什么LSTM会用到两个 $t a n h$ 函数？
找了半天就这个链接中点赞第二多的比较有道理（点赞最多的那个我实在不懂tanh怎么就有他说的多阶导能很长时间不为0的表现）。
大概的意思就是 $t a n h$ 的值在 [-1,1] 之间，但 sigmoid 在 [0,1] 之间，所以使用 $t a n h$ 可以生成负值。我了解到在神经网络中，像 $t a n h$ 这样的0中心激活函数可以加快收敛速度（关于0中心这篇不错），那可能也是这个原因我们在这里使用 $t a n h$ ，应该是其他激活函数也可用（但这里不是百分百保证，最好对于激活函数的区别再了解一下）。
题外话结束

LSTM中的BPTT

总结一下 LSTM 里发生的公式们（ $\cdot$ 表示矩阵相乘， $*$ 表示矩阵元素对应相乘）：
$f_t = \sigma (W_f\cdot [h_{t-1},x_t])\\\tilde{c_t} = tanh(W_c \cdot [h_{t-1},x_t])\\ i_t=\sigma(W_i \cdot[h_{t-1},x_t])\\ o_t = \sigma(W_o \cdot [h_{t-1},x_t])\\ h_t = o_t*tanh(c_t) ，输出 \\c_t=c_{t-1} * f_t + \tilde{c_t}*i_t，记忆更新$

现在我们放一个时间步长为3的 LSTM ：
在这里插入图片描述
列出涉及到的式子（嵌套的就不打开了，太多太乱了）：
$c_1 = c_0 * f_1+tanh(W_c\cdot [h_0,x_1])*i_1\\ h_1 = o_1*tanh(c_1)\\ c_2 = c_1 * f_2+tanh(W_c\cdot [h_1,x_2])*i_2\\ h_2 = o_2*tanh(c_2)\\ c_3 = c_2 * f_3+tanh(W_c\cdot [h_2,x_3])*i_3\\ h_3 = o_3*tanh(c_3)\\$
现在要去更新参数，共计四个 $W_f,W_c,W_i,W_o$ ：
$\frac{\partial E_3}{\partial W_f} = \frac{\partial E_3}{\partial h_3}\frac{\partial h_3}{\partial c_3}\frac{\partial c_3}{\partial c_2}\frac{\partial c_2}{\partial c_1}\frac{\partial c_1}{\partial W_f}$
求偏导过程中，主要看函数中有 $W_f$ 的是哪部分，很快我们发现 $c_i$ 函数中直观的包含了 $W_c,W_i$ 和 $W_f$ ，因此 $W_c,W_i$ 和 $W_f$ 的偏导公式都相同。
再看参数 $W_o$ ，它与 $h_3$ 是直接关系。
$\frac{\partial E_3}{\partial W_o} = \frac{\partial E_3}{\partial h_3}\frac{\partial h_3}{\partial W_o}$
因此我们也可以总结出和RNN类似的公式，即任意时刻误差项公式：
$\frac{\partial E_k}{\partial W_c}=\frac{\partial E_k}{\partial h_k}\frac{\partial h_k}{\partial c_k}(\prod_{t=2}^k\frac{\partial c_t}{\partial c_{t-1}})\frac{\partial c_1}{\partial W_c}$
$W_c,W_f,W_i$ 同上。
接着看到 $\frac{\partial c_t}{\partial c_{t-1}}$ ，举个t=2的例子：
$\begin{aligned} c_2 &= c_1 * f_2+\tilde{c_2}*i_2\\ \frac{\partial c_2}{\partial c_1} &= \frac{\partial (c_1*f_2)}{\partial c_1}+\frac{\partial (\tilde{c_2}*i_2)}{\partial c_1}\\ &=c_1 \cdot f_2'+c_1'\cdot f_2+\tilde{c_2}\cdot i_2'+\tilde{c_2}'\cdot i_2\\ &=c_1\cdot \frac{\partial f_2}{\partial c_1}+f_2+\tilde{c_2}\cdot \frac{\partial i_2}{\partial c_1}+i_2\cdot \frac{\partial \tilde{c_2}}{\partial c_1} \\ & = c_1\cdot \frac{\partial f_2}{\partial h_1}\frac{\partial h_1}{\partial c_1}+f_2+\tilde{c_2}\cdot \frac{\partial i_2}{\partial h_1}\frac{\partial h_1}{\partial c_1}+i_2\cdot \frac{\partial \tilde{c_2}}{\partial h_1}\frac{\partial h_1}{\partial c_1}\\ &=c_1\cdot \sigma'(W_f\cdot [h_1,x_2]) \cdot W_f \cdot o_1 \cdot tanh'(c_1)\\ &\ \ \ +f_2\\ &\ \ \ +\tilde{c_2}\cdot \sigma'(W_i\cdot [h_1,x_2]) \cdot W_i \cdot o_1 \cdot tanh'(c_1)\\ &\ \ \ + i_2 \cdot \sigma'(W_c\cdot [h_1,x_2]) \cdot W_c \cdot o_1 \cdot tanh'(c_1) \end{aligned}$

注意！我们之所以不直接把 $c_1$ 提出来，是因为 $f_2$ 中是包含了 $c_1$ 的！！ $f_2$ 包含了 $h_1$ ，而 $h_1$ 包含了 $c_1$ 。
作为简单的记忆，我们就把 $\frac{\partial c_2}{\partial c_1}$ 拆成了四项，除了 $f_t$ 那一项，其他都是一个套路。

配上一个可视的BPTT

总结一下偏导公式：
$\begin{aligned} \frac{\partial c_t}{\partial c_{t-1}}&=\frac{\partial }{\partial c_{t-1}}[c_{t-1} * f_t + \tilde{c_t} * i_t]\\ &= \frac{\partial }{\partial c_{t-1}}[c_{t-1} * f_t]+\frac{\partial }{\partial c_{t-1}}[\tilde{c_{t}} * i_t]\\ &=\frac{\partial f_t}{\partial c_{t-1}}\cdot c_{t-1}+\frac{\partial c_{t-1}}{\partial c_{t-1}}\cdot f_t+\frac{\partial i_t}{\partial c_{t-1}}\cdot \tilde{c_t}+\frac{\partial \tilde{c_t}}{\partial c_{t-1}}\cdot i_t\\ &= \frac{\partial f_t}{\partial h_{t-1}} \cdot \frac{\partial h_{t-1}}{\partial c_{t-1}}\cdot c_{t-1}+\frac{\partial i_t}{\partial h_{t-1}}\cdot \frac{\partial h_{t-1}}{\partial c_{t-1}}\cdot\tilde{c_t}+\frac{\partial \tilde{c_t}}{\partial h_{t-1}}\cdot \frac{\partial h_{t-1}}{\partial c_{t-1}}\cdot i_t\\ &= \sigma'(W_f\cdot [h_{t-1},x_t]) \cdot W_f \cdot o_{t-1} \cdot tanh'(c_{t-1}) \cdot c_{t-1}\\ & \ \ \ +f_t\\ & \ \ \ + \sigma'(W_i\cdot [h_{t-1},x_t]) \cdot W_i \cdot o_{t-1} \cdot tanh'(c_{t-1}) \cdot \tilde{c_t}\\ & \ \ \ + \sigma'(W_c\cdot [h_{t-1},x_t]) \cdot W_c \cdot o_{t-1} \cdot tanh'(c_{t-1}) \cdot i_t \end{aligned}$
如果把这四项分别用 $A, B, C, D$ 替代的话，公式就可以变成：
$\frac{\partial c_t}{\partial c_{t-1}}=A_t+B_t+C_t+D_t$

把这个简洁的公式带入之前的误差公式：
$\begin{aligned} \frac{\partial E_k}{\partial W}&=\frac{\partial E_k}{\partial h_k}\frac{\partial h_k}{\partial c_k}(\prod_{t=2}^k\frac{\partial c_t}{\partial c_{t-1}})\frac{\partial c_1}{\partial W}\\ &=\frac{\partial E_k}{\partial h_k}\frac{\partial h_k}{\partial c_k}(\prod_{t=2}^k[A_t+B_t+C_t+D_t])\frac{\partial c_1}{\partial W} \end{aligned}$

缓解梯度消失/爆炸问题

有连乘，那就说明有可能造成梯度消失和爆炸。上文也讲了 $\prod_{t=2}^k\frac{\partial c_t}{\partial c_{t-1}}$ 里面有什么，总共四项，如果看的云里雾里也没事，因为那个 $B_t$ 你一定看的懂！因为 $B_t$ 只有一个内容 $f_t$ ，我们可以轻松地直观地通过他调整 $f_t$ 的大小以适应其他三个项的值，然后是的连乘出来的结果不会非常小。

接下来我们看 $f_t$ 到底怎么能帮助我们。现在假设对某一个时间步 $k < T$ ，我们有：
$\sum_{t=1}^k \frac{\partial E_t}{\partial W}\rightarrow 0$
然后为了梯度不消失，我们可以再时间步 $k + 1$ 找到一个合适的 $W_f$ 使得：
$\frac{\partial E_{k+1}}{\partial W}\nrightarrow 0$
由于遗忘门的激活函数和梯度项中大家都是相加的（A,B,C,D，加性结构），所以使得 LSTM 在任何时间步都能找到这样的 $W_f$ 使得：
$\sum_{t=1}^{k+1}\frac{\partial E_t}{\partial W}\nrightarrow 0$
这样梯度就不会消失了。

另一个重要的性质： 正如上文说到的加性结构，四个项可以相互平衡从而保证在反向传播的时候梯度值不会消失。

举个例子：假设时间步 $\in \{2,3,...,k\}$ ，我们对梯度值中的四项设置一个相互平衡的值（从而保证梯度不消失）：
$A_t \approx \vec{0.1},B_t = f_t \approx \vec{0.7},C_t \approx \vec{0.1},D_t \approx \vec{0.1}$
带入连乘公式：
$\begin{aligned} \prod_{t=2}^k[A_t+B_t+C_t+D_t] &\approx \prod_{t=2}^k[\vec{0.1}+\vec{0.7}+\vec{0.1}+\vec{0.1}]\\ & \approx \prod_{t=2}^k \vec{1} \nrightarrow 0\end{aligned}$
这时候就算是连乘，梯度也不会消失了。

所以，在 LSTM 中，遗忘门的存在，以及细胞状态梯度的加性特性，使网络能够以这样一种方式更新参数，即不同子梯度之间的平衡从而避免梯度消失。
但看到这，也就清楚了，因为我们都是正数相加，所以不能够避免梯度爆炸，当 $A, C, D$ 的数值很大的时候， $f_t$ 也没办法去平衡防止梯度爆炸。