ACL 2021 | 信息抽取与词表学习

每天给你送来NLP技术干货!


来自:复旦DISC

933c0470b53dc5c6bdc52afca3d1c25f.gif

引言

ccc577fd2938d6766b20d12ceea7e690.gif

本次分享我们将介绍两篇ACL的论文,分别是使用异质图的信息抽取模型和机器翻译中的词表学习。

700f2367b08bcb972cdd9d478831a8b5.gif

文章概览

68d2a74816001eeb6b2906b2982b8239.gif

  • Document-level Event Extraction via Heterogeneous Graph-based Interaction Model with a Tracker

    本文提出了基于异构图的带有跟踪器的交互模型(GIT)来解决文档级事件提取的问题,通过异构图模型编码将事件级别的事件抽取划分为三个子任务。

  • Vocabulary Learning via Optimal Transport for Neural Machine Translation

    本文从信息论角度提出了一种寻找机器翻译中最优词表的方法,能够不通过预先实验找到性能更优的词表。

f214f8ae76275d741b1f5a0749f78cdb.gif

论文细节

71f04adb9dd49387f038ffaf781bfa5b.gif

1

6bb59a5da9351d802cc2fc82834f5918.png

动机

文档级事件提取旨在识别整篇文章中的事件信息。由于该任务的两个挑战是:

1)目标事件参数分散在句子中;2) 文档中事件之间的关联对于模型来说是非常重要的。

本文提出了基于异构图的带有跟踪器的交互模型(GIT)来解决上述两个难题。对于第一个挑战,GIT构建了一个异构图交互网络来捕获不同句子和实体提及之间的全局交互。对于第二种情况,GIT引入了一个跟踪模块来跟踪提取的事件,从而捕获事件之间的相互依赖关系。

模型

ebe1b738a695afb536cc377a716c4093.png

本文通过以下三个步骤将文档级别的事件抽取进行分解:

1)实体识别,即从文档中提取实体作为候选参数;2)事件类型检测;3)事件记录提取,即从实体中为所表达的事件寻找合适的参数。

  • 实体识别:使用CRF来标记具有BIO的实体

5742b78b3f3b1787a944aae74540b52c.png

  • 类型检测:文章首先构建了一个异质图,使用文档-实体之间的连接关系。使用图模型对文档和实体进行编码。

    17413e4ec2c39855d67d3ca6d695ce23.png

  • 在类型检测中,使用了Multi-head attention来进行分类。

    06efd6c43537f4e7435be862752e4d06.png

  • 事件记录提取:提取一条事件,并预测事件中实体的作用。

11f56a2c2dca270cd0fe9704a5746117.png

  • 模型训练:训练过程中使用以上三个子任务的Loss作为最终Loss。

实验

ccc836e654505f62813a98bffe915210.png

作者在金融领域的中文数据集上进行了实验,F1等指标显著高于Baseline模型。

2

fec0e9dbf3e4f07f766b6b4b4819222c.png

动机

词表的选择影响着机器翻译和预训练模型的性能。本文旨在找出对机器翻译而言最好的鹚,以及如何能够在不进行实验的情况下找到最佳词表。为了回答这些问题,作者首先从信息论的角度对词表的作用进行了另一种理解。基于此,作者将词表构成的探索——寻找大小合适的最佳词表——表述为一个最优传输(OT)问题。作者提出了VOLT,一种简单有效的解决方案,从而在不需要实验的情况下发现最佳词表。

模型

作者首先提出使用熵的概念来刻画词表的作用,定义了词的熵IPC(information per char)

f600b392719bea4a426f4c623de58f50.png

从而进一步定义刻画词表的度量MUV(Marginal Utility of Vocabularization) 

8a75b93a9fe115ab38217ef395321b0b.png

MUV是IPC与词表大小之间的tradeoff。于是,寻找最优词表问题可以转化为最大化词表的MUV。在此基础上,作者推导了最大化MUV的方法,通过将这一问题转化为OT问题,可以通过广义 Sinkhorn 算法来有效地找到目标词表,从而提出了VOLT模型 

a7be3df13a2554512c8258906e12acec.png

实验

本文通过在多个语向上的机器翻译实验证明了文章提出的VOLT模型:

0ccec12c25a7c8e4e8141c6f64bd57f5.png

1)在不损失翻译性能的条件下可以找到更好的词表。2)在低资源条件下的结果达到与启发式算法相近的效果。3)在多语言环境中表现良好。4)与现有模型相比开销更小。

参考文献

[1]Xu R, Liu T, Li L, et al. Document-level Event Extraction via Heterogeneous Graph-based Interaction Model with a Tracker[J]. arXiv preprint arXiv:2105.14924, 2021. 

[2]Xu J, Zhou H, Gan C, et al. Vocabulary Learning via Optimal Transport for Neural Machine Translation[J]. Entropy, 2021, 27(28.0): 28.5.


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

14ef9db6fcecfd745d309837bcf21ac8.png

记得备注呦

整理不易,还望给个在看!
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值