论文笔记:Trigger-Argument based Explanation for Event Detection

论文地址:Trigger-Argument based Explanation for Event Detection - ACL Anthology

代码地址:https://github.com/neuroninterpretation/TAE

数据集:MAVEN    ACE 2005

Volume:Findings of the Association for Computational Linguistics: ACL 2023


一 动机

现有的研究主要是利用输入文本中的单词或短语来解释模型的内在机制

深度学习处理ED性能很好,但是人们无法理解其内在机制。TAE它可以利用事件结构知识来揭示在神经元水平上对现有ED模型的忠实解释

二  介绍

两个主要的限制阻止现有的解释方法被应用到ED模型。

 

  1. 忽略事件结构化知识。

     对于(a)和(B),先前的工作认为具有较深颜色的特征更重要。事件触发器和参数的有用性在(c)和(d)中说明。“arg”指的是“argument”。

 2.解释不能反映决策过程。

   模型通常提供重要的特征,这些特征是从输入文本中选择的词或短语作为解释,但是它们不进一步详细说明这些特征的功能,即,为什么模型根据这些特征产生预测。解释解释并将其与模型预测联系起来是一个挑战。例如,在图1(a)和(B)中,模型可以将高相关性得分分配给“火车司机”或“暴徒”,但仍然困惑为什么这些特征会导致预测Bodily_harm。事实上,“火车司机”和“暴徒”充当受害者和代理人,它们共同组成了图1(c)中的“代理人伤害受害者”的Bodily_harm事件。此外,图1(d)提供了一个错误地将竞争归类为Bodily_harm的例子,因为模型将“哈雷”和“John”作为代理人和受害者,而不是Participant_1和Participant_2。因此,探索解释,不仅可以识别重要的功能,但也揭示了这些功能如何有助于预测是迫切需要的。

三 准备工作

  1. 问题表述

  

四  方法

如图2所示,包含3个模块:(1)组模块捕获事件的结构化知识;(2)稀疏性模块鼓励模型选择事件结构中很少但关键的特征;(3)支持模块是一个基本模块,它保证了由组和稀疏性生成的解释与原始预测一致。

一个事件的结构化解释的损失函数是通过一个优化问题获得的:

 

4.1 组模块

 

4.2 稀疏模块

稀疏模块旨在产生紧凑和人性化的解释。这是通过删除“死神经元”来实现的,这些神经元对模型预测毫无用处,同时只保留关键信息来解释预测。

我们使用可微分掩蔽机制过滤掉无用的神经元特征。特别地,对于每个提取的神经元,带sigmoid激活函数的分类器来决定是否应当掩蔽神经元。在训练阶段,我们直接使用L1范数以最小化神经元的数目。

 

4.3 支持模块

支持模块旨在确保由Group和Sparsity生成的解释的忠实性。一个期望的可解释事件检测模型应满足预测直接依赖于所选特征的直觉。对于ED模型,我们选择h(x)中的神经元来生成解释。使用组和稀疏性来选择包含结构化和重要信息的神经元特征μ。因此,支持的目标是衡量µ是否能够描述模型如何工作的真实概况。具体来说,函数h′(·)将μ映射到新的隐藏状态h′(μ),g(·)将新的隐藏状态h′(μ)映射到新的输出g(h′(μ)),如图2的底部所示。

我们引入了一个优化目标,以保证支持模块。

 

注意h′(·)可以是任何当前流行的网络架构,例如LSTM、Transformer和PLM。在我们的设置中,为了保持可解释性,我们使用简单的线性投影和MLP(多层感知器)来构建网络,并且由于我们不需要优化整个主干,因此计算更加高效(Yeh等人,2020年)。此外,通过这种方式,它主要专注于学习神经元行为,而不是牺牲预训练的CNN模型的性能。

五 实验

5.1数据集

MAVEN 使用自动帧解析器SEMAFOR以解析MAVEN数据。我们在MAVEN中选择具有事件类型的数据,并考虑相应的frame元素作为事件参数。最后,我们收集了12,649个事件提及,并将它们随机分为大小为8,469/2,000/2,000的train/dev/test集。

ACE 2005 我们进一步删除没有论元的数据,最后选择了3,014个示例。由于数据量相对较小,无法使用它来学习更好的NN模型。因此,我们直接利用在MAVEN上训练好的模型在ACE 2005上进行测试,也可以验证模型的泛化能力。

5.2 ED模型

 

 

 

5.7 案例

 

六  总结

在本文中,我们提出了一种基于触发参数的解释方法,TAE,它利用事件结构级的事件检测(ED)任务的解释。TAE侧重于利用艾德模型的神经元特征来生成解释,沿着三种策略,即,组建模,稀疏建模,支持建模。我们在两个艾德数据集上进行实验(即,MAVEN和ACE)。结果表明,TAE实现了更好的性能相比,多个公共指标的强基线。此外,TAE还提供了更忠实和人类可理解的解释

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值