【每周一文】Supervised Sequence Labelling with Recurrent Neural Networks

最新推荐文章于 2021-06-25 14:46:53 发布

下一步

最新推荐文章于 2021-06-25 14:46:53 发布

阅读量5.8k

点赞数 6

分类专栏：每周一文 ML NLP 文章标签： NLP 序列化标注深度学习 RNN LSTM

本文链接：https://blog.csdn.net/fangqingan_java/article/details/50590509

版权

本文介绍了NLP中的序列化标注问题，探讨了深度学习模型如FNN、RNN、Bi-RNN和LSTM在处理序列数据时的作用。重点讲解了RNN的演化，包括LSTM如何通过门控机制解决长期依赖问题。还提到了其他模型如CTC、多维RNN、层次RNN和注意力模型，并强调了它们在不同NLP任务中的适用性。

摘要由CSDN通过智能技术生成

概述

序列化标注是NLP领域非常常见的问题，很多问题都可以归结为序列化标注问题，例如分类可以看做多对一的标注；词性标注属于一对一的标注；机器翻译属于多对多的标注。
深度学习在NLP上取得不错的效果，常用的模型有前向神经网络（FNN）、卷积神经网络（CNN）、循环神经网络（RNN、BIRNN）、LSTM、关注度模型（AM）等，对于特定任务还有相关变形
本文主要科普下各个模型的结构，方便在后续NLP任务中应用。

RNN技术演化

常见激活函数

在多层神经网络中，一般先进行线性变换，然后进行非线性变换。如果多层神经网络只进行线性变换可以证明和一层网络一致。常见的非线性变换函数，也叫激活函数，如下：
这里写图片描述

常用的以sigmoid和tanh为主，他们都是将实数区间转换为固定区间（0，1）或者（-1,1）

前向神经网络（FNN）

FNN也称之为多层神经网络，主要结构如下：
这里写图片描述

FNN 整体分为三层，输入层、隐含层和输出层，可以理解为输入层为原始特征层常常表示为向量结构；隐含层为特征非线性变换层；输出层为特征变换后的结果。
输入层表示为：x
隐藏层表示为 $a h = \sum i = 1 I w i h x i b h = θ h (a h)$ $a_h=\sum_{i=1}^I w_{ih}x_i \\ b_h=\theta_h(a_h)$
输出层表示为 $a o = \sum i = 1 H L w i o b i$ $a_o=\sum_{i=1}^{H_L} w_{io}b_i$
模型层：一般会根据不同的问题选择不同的模型或者损失函数，对于回归问题均方差；二分类问题采用sigmoid变换采用对数损失；多分类问题采用softmax；以二分类为例 $y = s i g m o i d (a o) - l (z i, x i) = z i l n (y) + (1 - z i) l n (1 - y)$ $y=sigmoid(a_o) \\ -l(z_i,x_i)=z_i ln(y) + (1-z_i)ln(1-y)$
模型计算，可以采用标准的BP算法进行求解，即采用链式规则求解，这里不再赘述。

循环神经网络（RNN）

简单的FNN不太适用于NLP，主要原因是没有考虑上下文特征，如果仅仅考虑前一个词特征，可以考虑使用RNN，结构如下：
这里写图片描述
1. 该图看上去比较复杂，可以简单的理解为计算某个神经元时，除了考虑当前输入外，还要考虑上一时间点隐藏状态值，从公式看一目了然

a t h = \sum i = 1 I w i h x

最低0.47元/天解锁文章

下一步

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
【每周一文】Supervised Sequence Labelling with Recurrent Neural Networks

概述序列化标注是NLP领域非常常见的问题，很多问题都可以归结为序列化标注问题，例如分类可以看做多对一的标注；词性标注属于一对一的标注；机器翻译属于多对多的标注。深度学习在NLP上取得不错的效果，常用的模型有前向神经网络（FNN）、卷积神经网络（CNN）、循环神经网络（RNN、BIRNN）、LSTM、关注度模型（AM）等，对于特定任务还有相关变形本文主要科普下各个模型的结构
复制链接

扫一扫