1 简介
论文题目:Retrieval-Augmented Generative Question Answering for Event Argument Extraction
论文来源:EMNLP 2022
组织机构:The University of Texas at Dallas
论文链接:https://arxiv.org/pdf/2211.07067.pdf
代码链接:https://github.com/xinyadu/RGQA
1.1 动机
目前基于生成的事件抽取方法存在如下问题:
- 输出模板格式密集(训练实例较少),无法充分利用约束模板的角色之间的语义关系。
- 无法发挥大型预训练模型在相似输入输出对上产生抽取结果的类比能力。
1.2 创新
- 提出了一个检索增强的生成问答模型,用于事件论元抽取。
- 提出一个基于聚类的采样策略,用于few-shot场景(可比性更高)。
2 方法
模型的整体框架如上图,输入(图1)包括(Demonstration,Question,Input Context),其中Demonstration为(<Question, Context>, Arguments),从训练集中得到,使用S-BERT计算当前实例和Demonstration的相似性(图2),选择最相关的Demonstration。
|
|
模型生成的目标为下图1,loss为两个(图2),analogy loss为相似性设置一个阈值,判断Demonstration和实例中有非空的答案,另一个loss为生成loss。
|
|
Few-shot下的取样策略:使用k-means对输出上下文和触发词文本的编码进行聚类,对每个类簇取相应比例的样本,过程如下图:
3 实验
实验数据集为ACE 2005和WikiEvent,数据统计如下图:
Fully-Supervised下的实验结果如下图:
domain transfer下的实验结果如下图:
Few-shot下的实验结果如下图:
不同取样策略的事件类型分布和结果如下图: