1 简介
论文题目:Dynamic Global Memory for Document-level Argument Extraction
论文来源:ACL 2022
组织机构:University of Illinois Urbana-Champaign
论文链接:https://aclanthology.org/2022.acl-long.361.pdf
代码链接:https://github.com/xinyadu/memory_docie
1.1 动机
当前的模型忽略了全局上下文、忽略了长文档中提取的事件结构之间的一致性。
1.2 创新
- 提出动态记忆单元,通过选择最相似的文本序列作为附加的输入文本。
- 通过本体和全局知识得到论元对,基于论元对进行约束解码。
2 方法
模型的整体流程如上图,包括记忆单元和约束解码两部分。
模型为生成模型,通过BART在对应槽位上生成对应的论元。
2.1 Memory-enhanced Generation Model
在记忆单元中检索最相关的事件作为额外的上下文,使用S-BERT进行稠密检索,然后计算cos相似性(公式1),选择最相似事件作为额外的输入(公式2)。
![]() |
![]() |
2.2 Constrained Decoding
约束解码的原则是如果一个实体在文档较早部分的事件中被解码,如果结果与不可能的参数对不兼容,则不应该在稍后的另一事件中对其进行解码。
构建论元对的算法如下图,首先根据共现信息枚举全部可能的事件类型对,然后枚举共享相同实体类型的论元角色对,共享相同实体/事件类型对>0.001为不可信,最后人工判断。
解码规则:
- 减少不相容论元对规则的论元角色的概率。
- 对于相容论元对规则,相同实体数量超过5次,增加抽取实体的概率。
3 实验
实验数据集为WIKIEVENTS,实验结果如下图:
对抗样本下的实验效果:
消融实验:
在不同文档长度和事件数量下的实验效果:
定性分析:
错误分析:
缺失的论元和ground-truth论元的距离分布: