Joint entity recognition and relation extraction as a multi-head selection problem
动机
1,解决抽取过程中大量冗余的实体对
2,利用实体对之间的相互关系
摘要
本文首先将联合抽取任务分解为HE抽取和TER抽取两个相互关联的子任务,前者是区分所有可能涉及目标关系的头实体,后者是为每个抽取的头实体识别对应的尾实体和关系。
然后,基于我们提出的基于跨度的标注方案,将这两个子任务进一步解构为几个序列标签问题,并通过分层边界标签器和多跨度解码算法方便地解决这些问题。
想法
1,抽取尾实体和关系时,头实体的信息会有帮助
2,对于一个大任务来讲,分解成小任务会效果更好
3,先抽取头实体,然后抽取关系和尾实体
Methodology
标注方案
对于头实体抽取,分为两个序列标注子任务,第一个识别头实体的起始位置,第二个识别头实体的结束位置.两者的区别在于实体的类型针对尾实体进行标注.
对于关系和尾实体抽取,也是分为两个序列标注任务,第一个标注关系类型为尾实体的起始位置,第二个标注关系类型的结束位置.(相当于进行关系类型的序列标注,然后对标注结果进行最近的合并.
如图:

分层边界标记器(HBT
抽取器封装起来的一个标记器,分两步进行,第一步是提取起始位置,第二步是提取结束位置.(两步在输入上有所区别和特征的扩充)
第一步:

hi是词向量表示,
ai是句子的向量表示
第二步:

pi是位置向量,相对位置生成.
如图:

提取系统
整体框架

HE模块
类比HBT
第一步:hi是经过Bi-LSTM的词向量表示,ai是hi的maxpool结果
第二步:一致
经过HE模块,可以得到头实体及其类型
TER模块
考虑到了头实体起始位置,头实体结束位置,关系表示,起始位置和结束位置的distance,提出了

其中h[h]是该实体起始位置和结束位置的拼接
pi[ht]是相对位置向量
损失函数
两个交叉熵函数之和:Lhe+ Lter
trick
技巧点就在于如何利用丰富的特征.
本文提出了一种新颖的方法,将联合实体识别和关系抽取分解为头实体(HE)抽取和尾关系(TER)抽取。通过基于跨度的标注,使用分层边界标记器(HBT)和多跨度解码,优化了任务处理。核心在于利用头实体信息简化关系和尾实体的抽取,通过分解大任务提升效率。
1325

被折叠的 条评论
为什么被折叠?



