input type=file filename中文是问号_Lex-BERT：超越FLAT的中文NER模型？

最新推荐文章于 2022-04-11 20:45:36 发布

weixin_39637386

最新推荐文章于 2022-04-11 20:45:36 发布

阅读量124

点赞数

文章标签： input type=file filename中文是问号

本文链接：https://blog.csdn.net/weixin_39637386/article/details/113080845

版权

作者：JayLou娄杰，本文首发于JayJay的公众号《高能AI》，一定要关注哦～

本文介绍一篇“大道至简”的中文NER方法——Lex-BERT，其仅仅通过将词汇信息以标识符的形式引入到原文输入中，就可以有效增强中文NER效果。
由于Lex-BERT炒鸡简单，JayJay想安利给大家，赶紧在自己的中文NER任务上尝试一下吧～

谈起中文NER任务，NLPer都不陌生。而如今，提升中文NER指标的主要方式是引入词汇信息，JayJay在之前的综述《中文NER的正确打开方式: 词汇增强方法总结》一文中就详细介绍了中文NER的一些主流方法，而SOTA属于FLAT^[1]。

最近arxiv上的一篇paper《Lex-BERT: Enhancing BERT based NER with lexicons》将词汇信息作为标识符引入到input中，并超越了FLAT的结果。

Lex-BERT相比于FLAT有三点优势：

不需要利用word embedding；
可以引入实体类型type信息，作者认为在领域内，可以收集包含类型信息的词汇；
相比FLAT，Lex-BERT推断速度更快、内存占用更小；

一个题外话：JayJay之所以在标题中打了个问号（？），只是觉得不能就此下结论“Lex-BERT超越FLAT”，毕竟还是需要先有一个带有实体类型信息的高质量词表啊～但FLAT等用到的词向量是很容易获取的。

JayJay之所以还要介绍Lex-BERT，主要想强调：将词汇/实体信息作为标识符引入文本输入中，对于NER和关系抽取都还是有明显增益的。你再回想回想陈丹琦的《反直觉！陈丹琦用pipeline方式刷新关系抽取SOTA》，就体会到其中的“异曲同工”之处了。

SOTA回顾：FLAT

FLAT的设计十分简单巧妙。如上图所示，具体地设计了一种巧妙position encoding来融合Lattice 结构，具体地，对于每一个字符和词汇都构建两个head position encoding 和 tail position encoding。相关词汇共享相关token的position信息。FLAT可以直接建模字符与所有匹配的词汇信息间的交互，例如，字符[药]可以链接词汇[人和药店]和[药店]。

相关实验表明，FLAT有效的原因是：新的相对位置encoding有利于定位实体span，而引入词汇的word embedding有利于实体type的分类。

Lex-BERT：简单到爆！

Lex-BERT方式其实很简单，前提是要有一个拥有类型type信息的词汇表。论文作者共给出了2个版本的Lex-BERT，如上图所示：

Lex-BERT V1: 将type信息的标识符嵌入到词汇前后，例如，上图中[v][/v]代表医学相关的动词。
Lex-BERT V2: 将type信息的标识符拼接input后，然后与原始word起始的token共享相同的position embedding。此外，在attention层中，文本token只去attend文本token、不去attend标识符token，而标识符token可以attend原文token。

上图给出了Lex-BERT与FLAT（本文的FLAT实际是FLAT+BERT的结果）的指标对比，可以看出，Lex-BERT V1和V2均超过了FLAT，Lex-BERT V2领先更大。

上图给出了Lex-BERT与FLAT的推断速度和内存占用对比，相比FLAT，Lex-BERT推断速度更快、内存占用更小。

划重点：将词汇/实体类型信息当作标识符引入，增益明显！

看完Lex-BERT V1和V2的框架后，你是否感觉和女神的关系抽取SOTA很“雷同啊”？我们赶紧来回顾一下关系模型和“近似模型”吧：

关系模型：如上图(b)所示，对所有的实体pair进行关系分类。其中最重要的一点改进，就是将实体边界和类型作为标识符加入到实体Span前后，然后作为关系模型的输入。
近似关系模型：如上图(c)所示，将实体边界和类型的标识符放入到文本之后，然后与原文对应实体共享位置向量。上图中相同的颜色代表共享相同的位置向量。哈哈，这是不是借鉴了FLAT的结构呢？

其实，Lex-BERT和关系抽取SOTA，都是将类型信息当作标识符引入到输入文本中的。值得一提的是：Lex-BERT V2 和近似关系模型都借鉴了FLAT的方式，将标识符放入到文本之后，通过共享位置向量来建立软连接。

所以，本文主要想强调：将词汇/实体信息作为标识符引入文本输入中，对于NER和关系抽取都还是有明显增益的。

JayJay不说再见，欢迎关注我的公众号《高能AI》，那里是首发哦～