文章:
背景:
序列标注任务是NLP领域中一项非常经典的任务,进一步可细分为:词性标注(POS)、Chunking(组块分析,词组标注)、NER(命名实体识别,属于Chunking的特例)等任务。
序列标注的好坏往往对下游任务的结果有着极大的影响,因而对序列标注模型的研究吸引了广泛的关注。在此之前,已经有将卷积神经网络与CRF层结合在一起进行序列标注的研究;也有使用双向循环神经网络进行语言识别的研究。
在这篇文章中,作者提出多种基于LSTM进行序列标注的模型,而其中的BiLSTM-CRF模型在三个任务上都取得了SOTA的成果。
贡献:
1、使用了BiLSTM可以更好地处理输入前后的特征;
2、在LSTM的基础上加了一个CRF层,使得模型可以使用句子级别的标签信息,从而更好地建模标签之间的限定关系;
3、在POS、Chunking、NER三个任务取得了SOTA或接近SOTA的成果。
LSTM:
作者画的LSTM模型结构图不是很容易理解,因此这里我使用了“Understanding LSTM Networks”中的图:LSTM模型内部结构
在上图中,每个箭头都携带着整个向量,从一个节点的输出到另一节点的输入。 粉色圆圈表示逐点操作,例如矢量加法,而黄色框表示学习的神经网络层。 合并的箭头表示串联,而分叉的箭头表示内容的复制,并且副本将到达不同的位置。
具体到公式细节上,作者使用的公式中红框里的部分在上图的标准的LSTM模型中是不存在