『RNN 监督序列标注』笔记-第三章神经网络

最新推荐文章于 2023-02-20 21:08:53 发布

ycheng_sjtu

最新推荐文章于 2023-02-20 21:08:53 发布

阅读量8.3k

点赞数 1

分类专栏：科研点滴 Linux 神经网络模式识别 Deep Learning 文章标签：函数神经网络 class RNN 深度学习

本文链接：https://blog.csdn.net/ycheng_sjtu/article/details/49857669

版权

模式识别同时被 3 个专栏收录

23 篇文章 2 订阅

订阅专栏

Deep Learning

10 篇文章 0 订阅

订阅专栏

神经网络

8 篇文章 0 订阅

订阅专栏

『RNN 监督序列标注』笔记-第三章神经网络

多层感知机（Multilayer Perceptrons）

多层感知机的输出仅仅取决于当前的输入，因此 MLPs 更适用于模式分类而非序列标注任务。仅仅具有单隐含层的 MLPs 就具有了以任意精度逼近任意连续函数的能力，因此也被成为通用函数拟合器（universal function approximators）。

前向过程

前向过程可以描述为

a h = \sum i = 1 I w i h x i b h = θ h (a h)

$\eqalign{ & {a_h} = \sum\limits_{i = 1}^I {{w_{ih}}{x_i}} \cr & {b_h} = {\theta _h}\left( {{a_h}} \right) \cr}$

激活函数有多种选择。其中有

tanh (x) = e 2 x - 1 e 2 x + 1 σ (x) = 1 1 + e - x

$\eqalign{ & \tanh \left( x \right) = {{{e^{2x}} - 1} \over {{e^{2x}} + 1}} \cr & \sigma \left( x \right) = {1 \over {1 + {e^{ - x}}}} \cr}$

然而有 $\tanh \left( x \right) = 2\sigma \left( {2x} \right) - 1$ 因此他们作为激活函数是等同的，实际使用中可以根据值域的不同来选择。这两种激活函数最大的优点在于：非线性与可微性。

输出层

可以用 softmax 进行多类输出函数：

p (C k | x) = y k = e a k \sum k ' = 1 K e a k ' p (z | x) = \prod k = 1 K y z k k

$\eqalign{ & p\left( {{C_k}\left| x \right.} \right) = {y_k} = {{{e^{{a_k}}}} \over {\sum\limits_{k' = 1}^K {{e^{{a_{k'}}}}} }} \cr & p\left( {z\left| x \right.} \right) = \prod\limits_{k = 1}^K {y_k^{{z_k}}} \cr}$

损失函数

简单起见，先不考虑最大后验估计，只考虑极大似然估计，则直接取负对数即可：

 (x, z) = - \sum k = 1 K z k ln y k

$\mathcal L\left( {x,z} \right) = - \sum\limits_{k = 1}^K {{z_k}\ln {y_k}}$

反向过程

反向过程的关键在于推导残差反向传播过程。如果从链式法则的角度思考这个过程，能够清晰简单地得到结论，这里Calculus on Computational Graphs: Backpropagation介绍的很清楚。由于

\partial  ( x , z ) \partial y k = - z k y k

${{\partial {\cal L}\left( {x,z} \right)} \over {\partial {y_k}}} = - {{{z_k}} \over {{y_k}}}$
可以定义

δ j = d e f \partial  ( x , z ) \partial a j

${\delta _j}\mathop = \limits^{{\rm{def}}} {{\partial {\cal L}\left( {x,z} \right)} \over {\partial {a_j}}}$
由链式法则

δ h = θ' (a j) \sum k = 1 K δ k w h k

${\delta _h} = \theta '\left( {{a_j}} \right)\sum\limits_{k = 1}^K {{\delta _k}{w_{hk}}}$
最终有

\partial  ( x , z ) \partial w i j = \partial  ( x , z ) \partial a j \partial a j \partial w i j = δ j b i

${{\partial {\cal L}\left( {x,z} \right)} \over {\partial {w_{ij}}}} = {{\partial {\cal L}\left( {x,z} \right)} \over {\partial {a_j}}}{{\partial {a_j}} \over {\partial {w_{ij}}}} = {\delta _j}{b_i}$

梯度校验

反向过程中一般采用对称差分的方式进行梯度校验：

\partial  \partial w i j = \partial  ( w i j + ε ) - \partial  ( w i j - ε ) \partial w i j +  (ε 2)

${{\partial {\cal L}} \over {\partial {w_{ij}}}} = {{\partial {\cal L}\left( {{w_{ij}} + \varepsilon } \right) - \partial {\cal L}\left( {{w_{ij}} - \varepsilon } \right)} \over {\partial {w_{ij}}}} + {\cal O}\left( {{\varepsilon ^2}} \right)$

循环神经网络（Recurrent Neural Networks）

与 MLP 相比，RNN 最大的优势在于其内部状态具有的记忆功能：MLP 只能建立从输入到输出向量的映射，而 RNN 却能够建立从之前整个历史到输出的映射。

前向过程

前向过程可以由公式下式概括：

a t h = \sum i = 1 I w i h x t i + \sum h' = 1 H w h' h b t - 1 h' b t h = θ h (a t h)

$\eqalign{ & a_h^t = \sum\limits_{i = 1}^I {{w_{ih}}x_i^t + \sum\limits_{h' = 1}^H {{w_{h'h}}b_{h'}^{t - 1}} } \cr & b_h^t = {\theta _h}\left( {a_h^t} \right) \cr}$
最后一层的分类器，对于序列分类与时间段分类任务，都可以直接使用 MLP 的 Softmax / Logistic；而对于时序分类任务，需要重新设计输出层。

反向过程

反向过程一般采用(backpropagation through time ,BPTT)，这种算法在概念和时间复杂度上都更优。

δ t h = θ' (a h t) ⎛ ⎝ ⎜ ⎜ \sum k = 1 K δ t k w h k + \sum h' = 1 H δ t + 1 h' w h h' ⎞ ⎠ ⎟ ⎟

$\delta _h^t = \theta '\left( {a_t^h} \right)\left( {\sum\limits_{k = 1}^K {\delta _k^t{w_{hk}} + \sum\limits_{h' = 1}^H {\delta _{h'}^{t + 1}{w_{hh'}}} } } \right)$
其中

δ t j = d e f \partial  \partial a t j

$\delta _j^t\mathop = \limits^{{\rm{def}}} {{\partial {\cal L}} \over {\partial a_j^t}}$

展开（Unfolding）

标准的 RNN 网络结构如图所示：

双向神经网络（Bidirectional recurrent neural networks, BRNNs）

如果能够同时使用序列的未来信息和历史信息，将能够更好完成序列标注任务。然而标准的 RNN 只能使用历史信息。最容易想到的解决方式有2种：

加上包含未来信息的时间窗。其缺陷在于：窗口长度固定、不能处理序列畸变。
加上输入序列与输出序列之间的延时。其缺陷在于：延时需要人工确定、每次都要记忆之前的上下文，对网络是一种负担。

正向过程与标准 RNN 类似，但是输入序列以两个相反的方向输入到两个不同的隐含层。整条序列处理完成之后，隐含层参数一起更新。反向过程也是类似。如图所示：

因果任务（Causal Tasks）

BRNN 违背了因果律，因此难以用于机器人导航、金融预测等等任务。然而如果输入序列是空间序列而非时间序列，那么输入序列的过去和未来就没有区别了，例如蛋白质结构的预测。

某些情况下，BRNN 也可用于时间序列任务，只要输出是在序列结束时才给出，例如语句识别和手写体识别任务。
甚至在线时间序列任务也能够使用 BRNN，只要允许在输入序列之间存在若干停顿，例如在线语音听写任务。

雅克比序列（Sequential Jacobian）

为了衡量输出向量对于输入微小改变的敏感程度，可以使用四维雅克比矩阵 $J$ ，也称为序列雅克比：

J t t' k i = \partial y t k \partial x t ' i

$J_{ki}^{tt'} = {{\partial y_k^t} \over {\partial x_i^{t'}}}$

通过雅克比序列，我们能够评估网络在某个特定时间步的输出下，整个输入序列中每个时间步对此分别的影响。

雅克比序列的绝对幅值并没有意义，其相对幅值能够表示输出被输入影响的程度（敏感度）。
敏感度在那些具有较小方差的时间步会更大，例如固定图片背景的角落。这是因为网络预计那里不会有什么变化，变得非常敏感。造成雅克比序列幅值很大，但并不能说明这个时间步就绝对更重要。

如图所示：是在线手写体识别任务的雅克比序列， $x$ 和 $y$ 是笔尖的坐标，由于书写是从横向的，因此 $y$ 的敏感度要高得多，但是并不证明 $y$ 的重要性一定比 $x$ 高。