论文笔记 EMNLP 2021|Modeling Document-Level Context for Event Detection via Important Context Selection

125 篇文章 12 订阅

1 简介

论文题目:Modeling Document-Level Context for Event Detection via Important Context Selection
论文来源:EMNLP 2021
组织机构:俄勒冈大学
论文链接:https://aclanthology.org/2021.emnlp-main.439.pdf
代码链接:

1.1 创新

  • 提出一个模型,通过选择句子的重要上下文(不需要对长句子进行截断),使用BERT进行事件检测(序列标注和词分类),性能得到SOTA。

2 方法

模型主要包括两个部分:事件检测预测模型和上下文选择。

2.1 预测模型

将上下文选择模型选择的句子标记为C,按照在文档的位置分为两个子集LC和RC。然后选择的上下文和当前句子表示为文档 D ′ D' D:
D ′ = [ [ C L S ] , w 1 L C , w 2 L C , . . . , w n L C L C , [ S E P ] , w 1 , w 2 , . . . , w n [ S E P ] , w 1 R C , w 2 R C , . . . , w n R C R C ] D'=[[CLS],w_1^{LC},w_2^{LC},...,w_{nLC}^{LC},[SEP],w_1,w_2,...,w_n[SEP],w_1^{RC},w_2^{RC},...,w_{nRC}^{RC}] D=[[CLS],w1LC,w2LC,...,wnLCLC,[SEP],w1,w2,...,wn[SEP],w1RC,w2RC,...,wnRCRC]
然后通过BERT进行编码,最后进行分类,序列标注和词分类的Loss如下:

2.2 上下文选择

该部分对上下文进行选择,首先使用BERT得到句子 S j S_j Sj相对于当前句 S i S_i Si的编码(拼接起来,使用CLS表示),然后使用LSTM对以前选择的句子进行编码,每个time step输出一个最大概率句子为当前选择的句子(以前未被选择过的句子),直到超过BERT的输出长度(512)结束,公式如下:

2.3 训练

使用REINFORCE algorithm对上下文选择进行训练,其中 Reward包括下面三个部分:

  • Task-level Reward R i t a s k R_i^{task} Ritask: 使用事件检测的指标(F1值、准确率)作为Reward。
  • emantics-level Reward R i s i m R_i^{sim} Risim: 使用当前句子与选择句子的相似性作为Reward,公式如下:
  • Discourse-level Reward R i d i s c R_i^{disc} Ridisc: 使用当前句子与选择句子共有的实体作为Reward,使用Stanford CoreNLP获得实体提及和共指簇,公式如下:
    在这里插入图片描述
    总的Reward为上述三个Reward的和,通过REINFORCE最小化负期望Reward,具体公式如下(B为batch size):

3 实验

实验数据集为ACE 2005和CySecED(300篇文章(30个空间安全类型)),实验结果如下:
在这里插入图片描述
消融实验:
在这里插入图片描述
提出的上下文选择方法与启发式的选择方法对比:
在这里插入图片描述
Case Study:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hlee-top

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值