input type=file filename中文是问号_Lex-BERT:超越FLAT的中文NER模型?

7c6ae82fcf36be13b3aa22da2c94c1b6.png

作者:JayLou娄杰,本文首发于JayJay的公众号《高能AI》,一定要关注哦~

本文介绍一篇“大道至简”的中文NER方法——Lex-BERT,其仅仅通过将词汇信息以标识符的形式引入到原文输入中,就可以有效增强中文NER效果。
由于Lex-BERT炒鸡简单,JayJay想安利给大家,赶紧在自己的中文NER任务上尝试一下吧~

谈起中文NER任务,NLPer都不陌生。而如今,提升中文NER指标的主要方式是引入词汇信息,JayJay在之前的综述《中文NER的正确打开方式: 词汇增强方法总结》一文中就详细介绍了中文NER的一些主流方法,而SOTA属于FLAT[1]

最近arxiv上的一篇paper《Lex-BERT: Enhancing BERT based NER with lexicons》将词汇信息作为标识符引入到input中,并超越了FLAT的结果。

Lex-BERT相比于FLAT有三点优势:

  1. 不需要利用word embedding;
  2. 可以引入实体类型type信息,作者认为在领域内,可以收集包含类型信息的词汇;
  3. 相比FLAT,Lex-BERT推断速度更快、内存占用更小;

一个题外话:JayJay之所以在标题中打了个问号(?),只是觉得不能就此下结论“Lex-BERT超越FLAT”,毕竟还是需要先有一个带有实体类型信息的高质量词表啊~但FLAT等用到的词向量是很容易获取的。

JayJay之所以还要介绍Lex-BERT,主要想强调:将 词汇/实体信息作为标识符 引入文本输入中,对于NER和关系抽取都还是有明显增益的。你再回想回想陈丹琦的《反直觉!陈丹琦用pipeline方式刷新关系抽取SOTA》,就体会到其中的“异曲同工”之处了。

f345372e46fa4fab1d2542c7264273bb.png

SOTA回顾:FLAT

40e66ca8bdb08eaec2f0fdc86836330e.png

FLAT的设计十分简单巧妙。如上图所示,具体地设计了一种巧妙position encoding来融合Lattice 结构,具体地,对于每一个字符和词汇都构建两个head position encoding 和 tail position encoding。相关词汇共享相关token的position信息。FLAT可以直接建模字符与所有匹配的词汇信息间的交互,例如,字符[药]可以链接词汇[人和药店]和[药店]。

相关实验表明,FLAT有效的原因是:新的相对位置encoding有利于定位实体span,而引入词汇的word embedding有利于实体type的分类。

Lex-BERT:简单到爆!

d94b2412da001ec3c68182656424486f.png

Lex-BERT方式其实很简单,前提是要有一个拥有类型type信息的词汇表。论文作者共给出了2个版本的Lex-BERT,如上图所示:

  • Lex-BERT V1: 将type信息的标识符嵌入到词汇前后,例如,上图中[v][/v]代表医学相关的动词。
  • Lex-BERT V2: 将type信息的标识符拼接input后,然后与原始word起始的token共享相同的position embedding。此外,在attention层中,文本token只去attend文本token、不去attend标识符token,而标识符token可以attend原文token。

ee1488a6b3e7f531323e68ca23afd135.png

上图给出了Lex-BERT与FLAT(本文的FLAT实际是FLAT+BERT的结果)的指标对比,可以看出,Lex-BERT V1和V2均超过了FLAT,Lex-BERT V2领先更大。

4fcb2ecc93f2de82540be49358680b9a.png

上图给出了Lex-BERT与FLAT的推断速度和内存占用对比,相比FLAT,Lex-BERT推断速度更快、内存占用更小。

划重点:将词汇/实体类型信息当作标识符引入,增益明显!

看完Lex-BERT V1和V2的框架后,你是否感觉和女神的关系抽取SOTA很“雷同啊”?我们赶紧来回顾一下关系模型和“近似模型”吧:

7e735e1a40a76338ffd3713dca474670.png
  • 关系模型:如上图(b)所示,对所有的实体pair进行关系分类。其中最重要的一点改进,就是将实体边界和类型作为标识符加入到实体Span前后,然后作为关系模型的输入。
  • 近似关系模型:如上图(c)所示,将实体边界和类型的标识符放入到文本之后,然后与原文对应实体共享位置向量。上图中相同的颜色代表共享相同的位置向量。哈哈,这是不是借鉴了FLAT的结构呢?

其实,Lex-BERT和关系抽取SOTA,都是将类型信息当作标识符引入到输入文本中的。值得一提的是:Lex-BERT V2 和 近似关系模型 都借鉴了FLAT的方式,将标识符放入到文本之后,通过共享位置向量来建立软连接。

所以,本文主要想强调:将 词汇/实体信息作为标识符 引入文本输入中,对于NER和关系抽取都还是有明显增益的

JayJay不说再见,欢迎关注我的公众号《高能AI》,那里是首发哦~

9bbc9b1657444eab52d5a481be37baae.png

参考

  1. ^FLAT: Chinese NER Using Flat-Lattice Transformer
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值