Abstract & Introduction & Related Work
- 研究任务
- 用标签知识来增强文本表达
- 已有方法和相关工作
- 最近的工作引入了标签知识,通过将span提取任务形式化为一个问题回答问题来增强文本表示
- 面临挑战
- 由于训练和推理的低效率,QA形式并没有充分发掘标签知识
- 创新思路
- 它对文本和标签注释进行独立编码,然后通过一个精心设计的语义融合模块将标签知识整合到文本表示中
- 实验结论
- 在四个数据集上sota,大幅减少了训练时间
标签知识被隐性地整合到基于自我注意机制的文本表示中,自我注意机制的 "注意力 "会被文本分散,而不是完全集中在问题部分。因此,标签知识并没有被充分地利用来增强文本表征
为了解决低效和不充分利用的问题,我们提出一个novel的范式来整合标签知识
我们把问题-文本编码分解成两个分开的模块:文本编码模块和问题编码模块,样本集不会扩大超过C次,然后为了充分利用标签信息,通过一个融合模块
Approach
句子和标签注释的编码是共享权重的
Semantics Encoding Module
语义编码模块旨在将文本和标签注释编码为实值嵌入。由于与整个样本集相比,标签注释的数量很少,为标签注释从头建立一个编码器是很有挑战性的。因此,我们引入了共享编码器,其灵感来自连体网络(Bromley等人,1993)。共享编码器在学习标签注释的表示方面很有效,而且不引入额外的参数
Semantic Fusion
语义融合模块的目的是用标签知识明确地增强文本表示。为此,我们设计了一个语义引导的注意机制来实现这一目标
然后对标签注释和文本使用注意力机制:
最后进行一个融合
得到最终表示
Span Decoding
对于每一个token,表示
x
i
x_i
xi 是类c的start,用同样的方法求end
Flat Span Decoding
最被广泛使用的方法是最近匹配原则,它将类别c的起始位置与c的最近的下一个结束位置相匹配
在一个类别c的候选起点和终点位置中,我们只匹配那些具有高概率的位置,其中概率来自公式(8)中定义的向量。 关于启发式匹配的详细信息,请参考附录A.1的算法
Nested Span Decoding
由于启发式匹配原则不再起作用,我们遵循BERTMRC(Li等人,2020b)的解决方案。它采用了一个二元分类器来预测一对候选起点/终点位置应该被匹配为一个跨度的概率。具体来说,对于任何类别的c,定义以下二元分类器
Loss Function
start和end的损失函数
nested的损失函数有点不同:
Experiments
Analysis
Conclusion
在本文中,我们提出了一种新的范式,利用标签知识来促进跨度提取任务,并进一步实例化了一个名为LEAR的模型。与现有的QA Formalization方法不同,LEAR首先对文本和标签注释进行独立编码,并使用语义融合模块将标签知识明确地整合到文本表示中。通过这种方式,我们可以克服QA Formalization的低效率和低利用率问题。实验结果表明,我们的模型优于以前的工作,并享有明显更快的训练/推理速度
Remark
效果比 W 2 N E R W^2NER W2NER 差点,但是还是挺不错的