©PaperWeekly 原创 · 作者 | 陆星宇
单位 | 复旦大学
研究方向 | 自然语言处理
本文介绍一下复旦大学 NLP 组的一篇新的 NER 论文。
论文标题:
An Embarrassingly Easy but Strong Baseline for Nested Named Entity Recognition
论文链接:
https://arxiv.org/abs/2208.04534
问题简介
命名实体识别(NER)是自然语言处理的一个基本任务,该问题考虑的识别并分类给定文本中表达对实体的引用的文本片段(span),也就是所谓的命名实体(NE)。
过去的命名实体识别主要考虑的是扁平命名实体识别(flat NER)。近年来有一些工作考虑了实体之间可能存在嵌套关系,由此对应地提出嵌套命名实体识别(nested NER)这一新任务,并尝试给出了一些解决方案。
具体来说,如下图(1)所示:“上海市红十字会”就是一个典型的包含嵌套命名实体的例子。其中“上海市”是地名、“红十字会”是组织名、“上海市红十字会”是组织名且嵌套了上述两个命名实体。
▲ 图(1) 嵌套命名实体示例
在嵌套命名实体识别任务中,虽然允许外层的命名实体嵌套内层的命名实体,但是并不允许命名实体之间的冲突(clash)。形象地说,就是不允许两个不同的命名实体之间首尾相交。
形式化地:
给定包含 个词的输入序列 ,嵌套命名实体识别任务旨在从输入序列 中提取出所有互不冲突的命名实体。其中每一个命名实体 可以被表示为三元组 , 和 分别表示其在序列