【NER论文阅读】MECT:Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

MECT ----Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

摘要

中文命名实体识别(CNER)中,词汇增强技术已成为一种非常流行的方法,它可以减少切分错误,增加中文单词的语义和边界信息。

但是这些方法在整合了词汇信息之后,往往忽略了汉字结构的信息。汉字自古以来就是从象形文字演变而来的,它们的结构往往反映了更多关于汉字的信息。

本文提出了一种新的基于多元数据嵌入的cross-transformer(MECT),通过融合汉字的结构信息来提高汉字NER的性能。

具体来说,我们在一个two-stream Transformer中使用多元数据嵌入来集成汉字特征和部首级嵌入。利用汉字的结构特征,MECT可以更好地捕捉汉字的语义信息,为NER提供支持。在多个著名基准数据集上的实验结果证明了所提出的MECT方法的优点和优越性。

结论

本文提出了一种新的适用于CNER的two-stream网络MECT。

该方法使用多元数据嵌入,通过cross-transformer网络融合部首、字符和单词信息。

此外,随机注意力random attention被用于进一步提高性能。

在四个基准测试上的实验结果表明,融合汉字的部首信息可以有效地提高汉字识别的性能。

本文提出的带有radical stream的MECT方法增加了模型的复杂性。

在未来,我们将考虑如何在two-stream或multi-stream网络中以更有效的方式整合汉字的字符、单词和部首信息,以提高中文NER的性能,并将其扩展到其他NLP任务。

导言

命名实体识别(NER)在非结构化文本的结构化中起着至关重要的作用。这是一项序列标记任务,用于从非结构化文本中提取命名实体。NER的常见类别包括人名、地点、组织、时间、数量、货币和一些专有名词。

NER是许多自然语言处理(NLP)任务的基础,如事件提取、问答,信息检索,知识图谱构建等。

与英语相比,汉字之间没有空格作为分词符。中文分词主要是通过句子的语义信息来区分的,这给中文分词带来了很多困难。此外,该任务还有许多其他挑战,例如复杂组合、实体嵌套和不定长。

在英语中,不同的单词可能有相同的词根或词缀,更能代表单词的语义。例如,生理学、心理学、社会学、技术学和动物学都包含相同的后缀“-logy”,这有助于识别学科名称的实体。此外,根据英语单词的信息,词根或词缀通常决定一般意义(Yadav等人,2018)。词根,’ophthalmo-‘(ophthalmology)、‘esophage’-(esophagus)和‘epithelio-’(epithelium),可以帮助人类或机器更好地识别医学中的专业名词。因此,即使是在大规模数据集上训练过的最先进的方法,如BERT和GPT,也采用这种微妙的分词方法来提高性能。

在中文中,也有跟跟英语类似的词根词缀的结构。根据

我们可以看到汉字的结构有不同的分解方法,包括汉字的部首(CR)、头尾(HT)和结构成分(SC)。汉字自古以来就是从象形文字演变而来的,它们的结构往往反映了更多关于它们的信息。表2中有一些例子。字形结构可以丰富汉字的语义,提高汉字的使用性能。例如,Bi-LSTM-CRF方法首先通过汉字结构的分解来获得字符级嵌入,以提高NER的性能。然而,LSTM基于时间序列建模,每个单元的输入取决于前一个单元的输出。因此,基于LSTM的模型相对复杂,并行能力有限。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-clVA9YfP-1652285338434)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511225424890.png)]

表1 汉字的结构分解:“CR”表示汉字的部首,“HT”表示汉字的头和尾,“SC”表示汉字的结构成分。

为了解决上述问题,我们利用了Flat Lattice Transformer(FLAT)在高效并行计算和优秀词汇学习方面的优势,并在其基础上引入了根流作为扩展。通过结合基本信息,我们提出了一种基于多元数据嵌入的Cross-Transformer(MECT)。MECT具有lattice-stream和radical-stream,不仅具有FLAT的词边界和语义学习能力,而且增加了汉字部首的结构信息。这对NER任务非常有效,并改进了不同基准上的基线方法。

本文的主要贡献是:

  • 利用多元数据特征将汉字嵌入到汉字库中
  • 提出了一种新的two-stream模型,该模型结合了汉字的部首、字符和单词,提高了MECT方法的性能
  • 在有名的中文NER基准数据集上评估,展示了所提出方法相对于最先进方法的优点和优越性

相关工作

提出的MECT方法的关键是利用汉字的部首信息来增强汉字NER模型。因此,我们将重点放在文献中主流的词汇增强方法上。

汉语NER增强方法主要有两种,包括词汇信息融合和字形结构信息融合。

1. 词汇信息融合 Lexical Enhancement

单词匹配方法

例如Lattice LSTM模型,该模型通过编码和匹配词典中的单词来提高NER性能。

基于CNN模型

例如LR-CNN,CAN-NER。

基于图形网络

典型的是LGN。

基于transformer的词汇增强方法,

例如PLT和FLAT

标签和概率

Soft-Lexicon通过标签和概率方法在字符表示层引入词汇信息。

2. 字形结构融合 Glyph-structural Enhancement

一些研究还使用了汉字中的字形结构信息。

Dong等人(2016年)首次研究了部首级信息在汉语NER中的应用。他们使用Bi-LSTM提取部首级嵌入,然后将其与字符嵌入连接起来作为最终输入。Bi-LSTM中使用的基本信息是结构组件(SC),如表1所示,它在MSRA数据集上实现了最先进的性能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EJbOSo7H-1652285338436)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511225424890.png)]

Glyce(Meng等人,2019)模型使用汉字图像来提取汉字的笔画和结构等特征在中文NER中表现很好。

其他一些方法(Xu等人,2019年;Song等人,2020年)也建议使用部首信息和腾讯预训练的的嵌入https://ai.tencent.com/ailab/nlp/en/embedding.html来提高性能。

在这些作品中,汉字的结构成分被证明能够丰富汉字的语义,从而产生更好的表现。

背景(FLAT)

本文提出的方法基于Flat-Lattice Transformer(FLAT)模型。

FLAT通过添加word的lattice信息来改进Transformer的编码器结构。这些word lattice是通过字典匹配得到的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ppev2cvc-1652285338437)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511233207142.png)]

图1展示了FLAT的输入和输出,它使用由头部和尾部位置转换的相对位置编码来拟合单词的边界信息。相对位置编码Rij的计算如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-afQoE9KB-1652285338437)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511233509072.png)]

其中Wr是可学习的参数,hi和ti代表第i个字符的头部位置和尾部位置,⊕ 表示串联操作,pspan的获得如Vaswani等人(2017年)所述:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZkmuJmuv-1652285338440)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511233609545.png)]

式中,pspan对应于等式(1)中的p,span表示hi− hj,hi-tj,ti− hj和ti− tj。然后通过以下方法获得scaled dot-product attention:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xEsq4euO-1652285338440)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511233746979.png)]

其中Rimage-20220511233829203。u,v,W□是可学习的参数。

MECT方法

为了更好地整合汉字组件的信息,我们使用汉字结构作为另一种元数据,并设计了一个two-stream形式的多元数据嵌入网络。架构如图2a所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wUzTQgOP-1652285338441)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511235330650.png)]

该方法基于Transformer的编码器结构和FLAT方法,综合了汉语单词的语义和边界信息。提出的two-stream模型使用了一个类似于自我注意机制的cross-transformer模块来融合汉字成分的信息。在我们的方法中,我们还使用了在视觉语言任务中广泛使用的多模式协作注意方法(Lu等人,2019)。不同之处在于,我们添加了一个随机初始化的注意矩阵来计算这两种元数据嵌入的注意偏差。

1. CNN for 部首级嵌入

汉字以象形文字为基础,其意义以物体的形状表达。在这种情况下,汉字的结构对NER有一定的有用信息。

例如,‘艹’ 和 ‘木’通常代表职务,提高了对中药实体识别。

例如,‘月’ 代表人体部位或器官,‘疒’代表疾病,这有利于医疗领域的CNER。

部首‘钅’,‘木’,‘氵’,‘火’,‘土’(五行)常被用于人名或者公司名。但是‘锈’,‘杀’,‘污’,‘灾’和‘堕’通常不被用作名称,即使它们包含了五行理论的一些元素。这是因为其他部首成分也决定了汉字的语义。通常出现负面或与中国文化信仰冲突的部首通常不用于命名。

因此,我们选择表1中信息量较大的结构成分(SC)作为汉字的部首级特征,并使用卷积神经网络(CNN)去抽取汉字特征。CNN网络的结构图如图3所示。我们首先将汉字分解成SC,然后将部首输入CNN。最后,利用最大池和全连接实现了汉字部首级的特征嵌入。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-koVt2mic-1652285338441)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511235345161.png)]

2. Cross-Transformer 模块

在基本特征提取之后,我们提出了一种Cross-Transformer网络来获取汉字结构的补充语义信息。它还利用上下文和词汇信息来丰富汉字的语义。Cross-Transformer如图2b所示。与Transformer中的自注意力不同,我们使用两个Transformer编码器来交叉汉字的lattice和部首信息。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UDt6Kid4-1652285338442)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511235615061.png)]

输入image-20220511235702885通过lattice的线性变换和部首级级特征嵌入得到:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iOkchBJb-1652285338443)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511235749181.png)]

其中image-20220511235840620image-20220511235855061是lattice嵌入和部首级嵌入,I是单位矩阵,每个W是一个可学习的参数。

然后,我们使用FLAT中的相对位置编码来表示单词的边界信息,并计算cross-transformer中的attention score:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WPMOSipz-1652285338443)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220511235951825.png)]

式中,u和v是等式(10)中注意偏差的可学习参数

image-20220512000104786是lattice attention score,image-20220512000122473表示radical attention score。

另外,image-20220512000152851

image-20220512000257069是可学习的参数。

相对位置编码image-20220512000313871的计算如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K8RYtemP-1652285338444)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220512000350802.png)]

3. 随机注意力 Random Attention

我们实证发现,在cross-transformer中使用随机注意可以提高所提出方法的性能。这可能是由于lattice和部首特征嵌入对注意bias的要求,能更好地适应两个子空间的得分。

随机注意是一个随机初始化的参数矩阵image-20220512000529900,将其添加到之前的注意力分数中,以获得总注意力分数:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hMEEwNwa-1652285338444)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220512000555022.png)]

4. 融合方法 The Fusion Method

为了减少信息损失,我们直接将lattice和基本特征连接起来,并将它们输入到一个全连接的层中进行信息融合:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L39hQhGZ-1652285338444)(C:\Users\fmxuxu\AppData\Roaming\Typora\typora-user-images\image-20220512000704485.png)]

其中⊕ 表示串联操作,Wo和b是可学习的参数。

在融合步骤之后,我们屏蔽单词部分(Masked),并将融合后的特征传递给条件随机场(CRF)模块。

实验结果

息损失,我们直接将lattice和基本特征连接起来,并将它们输入到一个全连接的层中进行信息融合:

[外链图片转存中…(img-L39hQhGZ-1652285338444)]

其中⊕ 表示串联操作,Wo和b是可学习的参数。

在融合步骤之后,我们屏蔽单词部分(Masked),并将融合后的特征传递给条件随机场(CRF)模块。

实验结果

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值