论文地址:Chinese NER Using Lattice LSTM - 百度学术 (baidu.com)
github地址:https://github.com/jiesutd/LatticeLSTM
Abstract
我们研究了一个格子结构的LSTM模型,该模型对输入的字符序列以及与词库相匹配的所有潜在词汇进行编码。
与基于字符的方法相比,我们的模型明确地利用了词和词的序列信息。
与基于单词的方法相比,我们的模型明确地利用了单词和词序信息。
网格LSTM不会出现分割错误。
门控递归单元允许我们的模型从一个句子中选择最相关的字符和词,以获得更好的NER结果。在各种数据集上的实验表明,格子LSTM优于基于单词和字符的LSTM 基线,取得了最好的结果。
1 Introduction
作为信息提取的一项基本任务,命名实体识别(NER)近年来一直受到研究的关注。
该任务在传统上是作为一个序列标签问题来解决的。
标签问题,其中实体边界和类别标签是共同预测的。
目前,英语实体识别的最先进技术是通过以下方式实现的 使用LSTM-CRF模型字符信息被整合到单词表示中。
中文NER与词的分割相关联。特别是,命名实体的边界也是词的边界。
进行中文NER的一个直观方法是先进行词的分割,然后再进行词的序列标注。
然而,分割→NER管道可能会出现错误传播的问题,因为NEs是分割中OOV的一个重要来源,而错误的分割实体边界会导致NER错误。
这个问题在开放域中可能很严重,因为跨域词的分割仍然是一个未解决的 (Liu and Zhang, 2012; Jiang et al., 2013; Liu等人,2014;Qiu和Zhang,2015;Chen等人。2017;Huang等人,2017)。已有研究表明基于字符的方法优于基于词的方法。
然而,基于字符的NER的一个缺点是,明确的词和词序信息没有得到充分的利用,而这可能是有用的。
为了解决这个问题,我们通过使用晶格结构的LSTM来表示句子中的词汇,将潜伏的词汇信息整合到基于字符的LSTM-CRF中。
使用格子结构的LSTM来表示句子中的词汇。
如图1所示,我们通过将一个句子与一个大型的自动获得的词库相匹配来构建一个单词字符格。
因此,诸如 "长江大桥"、"长江 "和 "大桥 "这样的词序列可以用来区分上下文中潜在的相关命名实体,例如人名 "江大桥(Daqiao Jiang)"。
由于在格子中存在指数级的字词路径,我们利用格子LSTM结构来自动控制从句首到句尾的信息流。
如图2所示,门控单元被用来动态地将信息从不同的路径输送到每个字符。
经过NER数据的训练,格子LSTM可以学会从上下文中自动找到更多的语境中找到更多有用的词,从而提高NER的性能。
与基于字符和单词的NER方法相比,我们的模型的优势是利用了明确的单词信息而不是字符序列标签,而不存在分割错误。
结果表明,我们的模型明显优于使用LSTMCRF的字符序列标注模型和词序列标注模型,在不同领域的各种中文NER数据集上给出了最佳结果。
2 Related work
我们的工作与现有的使用神经网络进行NER的方法是一致的。Hammerton (2003) 试图用单向LSTM来解决这个问题,这也是最早用于NER的神经模型之一。
Collobert等人(2011)使用了 竞争最好的统计模型的结果。
等人(2015)使用字符CNN来增强一个CNN-CRF模型。
最近的工作是利用一个LSTM-CRF架构。Huang等人(2015) 使用手工制作的拼写特征;Ma和Hovy
(2016)和Chiu and Nichols (2016)使用字符CNN来表示拼写特征。Lample等人(2016)使用一个字符LSTM代替。
我们基于单词的基线系统采取了与这一工作路线类似的结构。我们基于单词的系统采取了与这一工作路线类似的结构。
字符序列标记一直是中文NER的主流方法(Chen et al, 2006b; Lu et al., 2016; Dong et al., 2016)。有 已经有明确的讨论,比较了基于统计学的词和基于字符的方法 的任务,显示后者在经验上是一个优越的选择(He and Wang, 2008)。
我们发现,在适当的表征设置下,同样的结论也适用于神经系统NER的结论。
另一方面,格子LSTM 是一个更好的选择,与单词LSTM 和字符LSTM相比是更好的选择。
如何更好地利用词汇信息进行 中文NER的研究得到了持续的关注(Gao等人,2005),其中分割信息被用作NER的软特征(Zhao and Kit, 2008; Peng and Dredze, 2015; He and Sun, 2017a),并采用双重分解法研究联合分割和NER 的联合分割和NER,已经使用双重分解法进行了研究 (Xu等人,2014),多任务学习(Peng和Dredze, 2016)等。
我们的工作与此一致,专注于我们的工作是一致的,专注于神经表征学习。虽然上述的方法可能会受到数据和分割错误的影响,而我们的方法不需要一个单词分割器。
由于不考虑多任务设置,该模型在概念上更加简单。
外部信息来源已被用于NER。特别是,词汇表特征已经被广泛使用(Collobert等人,2011;Passos 等人,2014;Huang等人,2015;Luo等人,2015)。
Rei(2017)使用单词级别的语言建模 目标来增强NER的训练,在大型原始文本上进行 在大型原始文本上进行多任务学习。Peters 等人(2017)预训练一个字符语言模型来
增强单词表征。Yang等人(2017b) 利用跨领域和跨语言的知识 通过多任务学习。
我们利用外部 数据,通过对大型自动分割的文本进行词嵌入词库的预训练。而半监督技术,如语言建模是正交的,也可用于我们的格子LSTM模型。
格子结构的RNN可以被看作是树状结构的RNN(Tai等人。2015)对DAGs的自然扩展。
它们已经被用于建模 运动动力学(Sun等人,2017),依赖话语DAG(Peng等人,2017),以及 语音标记化格子(Sperber等人,2017)。和多颗粒度分割输出(Su 等人,2017)的NMT编码器。
与现有工作相比,我们的格子LSTM在动机和结构上都有所不同。
例如,由于是为以字符为中心的格子LSTMCRF序列标签而设计的,它有递归单元,但没有单词的隐藏向量。
就我们所知。我们是第一个设计了一个新的格子LSTM
表示,也是第一个使用格子LSTM来表示混合字符和词库 词的新型格子LSTM表示,也是第一个将词-字格子 用于无分段的中文NER。
ok 模型的话直译不是很好理解 浅谈一下本人的理解
核心思想就是 通过Lattice LSTM表示句子中的单词,将潜在的词汇信息融合到基于字符的LSTM-CRF中。实际上,该模型的主干部分依然是基于字符的LSTM-CRF,只不过这个LSTM每个Cell内部的信息处理方式与LSTM不同。
上图中有一些红色的cell,他们是句子中潜在词汇产生的信息,同主干LSTM相应的cell连接起来就构成了类似于网络的结构,也就是本文说的Lattice,主要是这些红色的cell如何融合到主干?
基本的 LSTM 结构中,每个 Cell 含有输入门、遗忘门和输出门,它们都是0~1的小数(默认激活函数为 Sigmoid),根据当前输入和前一个 Cell 的输出计算得到的。还有一个核心元素就是 Cell State,也就是上面那条从左到右的箭头,它从头走到尾,记录整个序列的信息。输入门决定当前输入有多少加入 Cell State;遗忘门决定 Cell State要保留多少信息;输出门决定更新后的 Cell State 有多少可以输出。
回到本文的 Lattice LSTM 模型(截取局部进行说明),比如“桥”字,句子中潜在的以它结尾的词汇有:“长江大桥”和“桥”。因此,当前字符 Cell 除了“桥“字以外,还要考虑这两个词汇。从图上看就是两个红色 Cell 引出的两个绿色箭头,代表这两个词汇的信息。
文章中对于词汇信息的算法如下图公式所示,每个词汇的红色 Cell 类似 LSTM Cell 且相互独立。因为序列标记是以字符为级别,所以这个 Cell 中没有输出门,Cell State 即为词汇信息。
其中,矩阵中的 X 和 h 分别表示词向量和词首字符 Cell 的输出。
由 LSTM 的思想可知,这些词汇信息不会全部融入当前字符 Cell,因此要进行取舍。文章提出额外的门控单元(Additional Gate),根据当前字符和词汇信息来计算词汇信息权重,如下图公式所示。
其中,矩阵中的 X 和 c 分别代表当前字符的字符向量和当前词汇的 Cell State 。
然后,文章提出一种归一化算法求出当前字符 Cell 各种输入的权重,类似 Softmax 函数,如下图公式所示。分母看起来有点复杂,其实就是句子中以当前词结尾的所有词汇的权重以及当前字符输入门的求和(取以e为底的指数使得结果为正)。
最后,当前字符的 Cell State 就可以算出来了。
总的来说就是lstm的一个变种 能结合更多的语义信息
,