每天给你送来NLP技术干货!
来自:复旦DISC
引言
本次分享我们将介绍两篇ACL的论文,分别是使用异质图的信息抽取模型和机器翻译中的词表学习。
文章概览
Document-level Event Extraction via Heterogeneous Graph-based Interaction Model with a Tracker
本文提出了基于异构图的带有跟踪器的交互模型(GIT)来解决文档级事件提取的问题,通过异构图模型编码将事件级别的事件抽取划分为三个子任务。
Vocabulary Learning via Optimal Transport for Neural Machine Translation
本文从信息论角度提出了一种寻找机器翻译中最优词表的方法,能够不通过预先实验找到性能更优的词表。
论文细节
1
动机
文档级事件提取旨在识别整篇文章中的事件信息。由于该任务的两个挑战是:
1)目标事件参数分散在句子中;2) 文档中事件之间的关联对于模型来说是非常重要的。
本文提出了基于异构图的带有跟踪器的交互模型(GIT)来解决上述两个难题。对于第一个挑战,GIT构建了一个异构图交互网络来捕获不同句子和实体提及之间的全局交互。对于第二种情况,GIT引入了一个跟踪模块来跟踪提取的事件,从而捕获事件之间的相互依赖关系。
模型
本文通过以下三个步骤将文档级别的事件抽取进行分解:
1)实体识别,即从文档中提取实体作为候选参数;2)事件类型检测;3)事件记录提取,即从实体中为所表达的事件寻找合适的参数。
实体识别:使用CRF来标记具有BIO的实体
类型检测:文章首先构建了一个异质图,使用文档-实体之间的连接关系。使用图模型对文档和实体进行编码。
在类型检测中,使用了Multi-head attention来进行分类。
事件记录提取:提取一条事件,并预测事件中实体的作用。
模型训练:训练过程中使用以上三个子任务的Loss作为最终Loss。
实验
作者在金融领域的中文数据集上进行了实验,F1等指标显著高于Baseline模型。
2
动机
词表的选择影响着机器翻译和预训练模型的性能。本文旨在找出对机器翻译而言最好的鹚,以及如何能够在不进行实验的情况下找到最佳词表。为了回答这些问题,作者首先从信息论的角度对词表的作用进行了另一种理解。基于此,作者将词表构成的探索——寻找大小合适的最佳词表——表述为一个最优传输(OT)问题。作者提出了VOLT,一种简单有效的解决方案,从而在不需要实验的情况下发现最佳词表。
模型
作者首先提出使用熵的概念来刻画词表的作用,定义了词的熵IPC(information per char)
从而进一步定义刻画词表的度量MUV(Marginal Utility of Vocabularization)
MUV是IPC与词表大小之间的tradeoff。于是,寻找最优词表问题可以转化为最大化词表的MUV。在此基础上,作者推导了最大化MUV的方法,通过将这一问题转化为OT问题,可以通过广义 Sinkhorn 算法来有效地找到目标词表,从而提出了VOLT模型
实验
本文通过在多个语向上的机器翻译实验证明了文章提出的VOLT模型:
1)在不损失翻译性能的条件下可以找到更好的词表。2)在低资源条件下的结果达到与启发式算法相近的效果。3)在多语言环境中表现良好。4)与现有模型相比开销更小。
参考文献
[1]Xu R, Liu T, Li L, et al. Document-level Event Extraction via Heterogeneous Graph-based Interaction Model with a Tracker[J]. arXiv preprint arXiv:2105.14924, 2021.
[2]Xu J, Zhou H, Gan C, et al. Vocabulary Learning via Optimal Transport for Neural Machine Translation[J]. Entropy, 2021, 27(28.0): 28.5.
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!