©作者 | 刘兴贤
学校 | 北京邮电大学硕士生
研究方向 | 自然语言处理
论文题目:
A Unified Generative Framework for Various NER Subtasks
论文地址:
https://arxiv.org/abs/2106.01223
代码repo:
https://github.com/yhcc/BARTNER
该论文被收录于 ACL 2021 主会,作者是来自复旦大学的邱锡鹏老师组。
先插句题外话,本文的图示是我最近看过的文章里表意最明确的一篇,几乎只看图就能了解文章表达的意思。
Main Idea
图 abc 分别展示了 NER 的 flat NER(简单、扁平实体抽取)、nested NER(嵌套实体抽取)、discontinuous NER(不连续实体抽取)三种不同的子任务。
而对于这样复杂的子任务,无法使用传统的标记方法将其纳入同一个框架。因此,本文使用了指针方式,使用将标注任务转化为一个序列生成任务(本文的主要贡献也正在这里),并使用了 seq2seq 的范式来进行生成,生成过程使用了预训练模型 BART,这是一个利用从被破坏掉的文本中还原文本的任务作为预训练目标的模型。
Abstract
命名实体识别(NER)是识别代表句子中实体的跨度的任务。无论实体跨度