论文标题《End2End Sequence Labeling via Bi-directional LSTM-CNNs-CRF》
论文摘要
目前,最好的序列标注系统都需要用到领域知识,比如人工设计的特征以及数据预处理等。该论文中,引入了Bi-directional LSTM-CNNs-CRF的神经网络架构,并利用单词及字符级别的表示信息。论文中提出的系统是一种真正端到端的,不基于特征工程和数据预处理的系统,从而使得该方法在序列标注任务中具有广泛的应用。
论文作者在Penn Treebank WSJ corpus语料上测试了POS任务,在CoNLL 2003 corpus语料上测试了NER任务,分别取得了97.55%的准确率和91.21%的F1值。
论文引言
POS和NER是语言序列标注任务中典型任务。常用的方法有两类,其一是基于统计学习的方法,代表性的是HMM和CRF,这种方法通常需要人工设计特征,并利用任务相关的资源;其二是基于表示学习的方法,但基于表示学习的方法通常只是被用来作为数据增强。
该论文中提出的针对序列标注任务的神经网络架构,是一种真正的端到端的,无需特征工程、任务资源、数据预处理的方法。利用CNN抽取字符级别的信息形成字符级别的表示向量;将单词和字符的表示送入双向LSTM,用于提取单词在上下文环境中的信息;最后,将LSTM的输出送入序列化的CRF层,抽取句子的序列标注能力。作者在Penn Treebank WSJ corpus语料上测试了POS任务,在CoNLL 2003 corpus语料上测试了NER任务,分别取得了97.55%的准确率和91.21%的F1值。
神经网络结构
(1) CNN用于抽取字符级别的表示
在先前的研究工作中发现,CNN可以有效抽取单词字符的形态学特征(如单词的前缀、后缀等)形成字符级别的表示特征。网络结构如下图所示,需要注意的是虚线表示Dropout操作。