论文阅读笔记：A Two-Step Approach for Event Factuality Identification

最新推荐文章于 2024-04-30 11:16:27 发布

我唱歌比较走心

最新推荐文章于 2024-04-30 11:16:27 发布

阅读量823

点赞数

分类专栏：论文阅读文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Delusional/article/details/110489090

版权

论文阅读专栏收录该内容

3 篇文章

订阅专栏

A Two-Step Approach for Event Factuality Identification

期刊/会议：2015 International Conference on Asian Language Processing (IALP)

原文链接：https://ieeexplore.ieee.org/document/7451542

摘要

原文的表述

本文着重于确定事件的事实性。与以往的基于规则的方法不同，本文提出了一种将机器学习和基于规则的方法相结合的新颖的两步方法。首先，构造一个最大熵模型来确定事件确定性程度是否被表达。然后，引入了一组包含提示(cue)和范围(scope)检测的规则，以进一步标识各种事件事实值。实验结果表明，与基于规则的最新系统相比，我们的两步式方法可以实现更高的性能。

本文的工作是使用机器学习的方法（最大熵模型）来对事件进行一个初步的划分，将事件根据“确定性程度能否被表达”分成两大类（还有一个OTHER类别），接下来使用基于规则的方法对事件真实性进一步划分，提出两种方法相结合的方式，来确定的事件的真实性。

概念梳理

事件真实性

描述了一个事件会发生的概率，比如对于如下两句话：

在句子E1中，事件是rain，前面有may修饰，代表可能下雨，所以下雨这个事件是可能发生的。

在句子E2中，事件是go，根据句子的意思判断，go这个事件是一定发生的。

需要注意的是，上面的“可能发生”和“一定发生”只是对于Tom而言的，因为这是Tom说的话，而这个句子的AUTHOR（写下这句话的人），并没有对这两个事件的真实性做出承诺。

所以事件的事实性有一个或多个相关来源（relevant sources），比如上文的两句话就分别有两个来源。句子中的每个事件至少有一个来源，即文本的作者（写这个句子的人）。因此，在本文中，事件的事实性和现实生活无关，只和这个事件的相关来源对这个事件真实性的评估有关。

Saudi等人的工作

提出了一种基于规则的模型，该模型采取自顶向下遍历句法依存树的方法。

提出了FactBank语料库，提供了事件真实性的注释。

FactBank语料库

语料库中共有208个文档，3864个句子，9492个事件，13506个事件真实性标注的值。主要包含如下标注的信息：

Factuality value: 也就是事件真实性的表示，包含两个部分： modality and polarity，即形态和极性，modality包含 CT (certain), PR (probable), PS (possible), U (underspecified)， polarity包含 + (positive), - (negative), u(underspecified)，进行两两组合，有如下的几种形式：CT+, CT-, PR+, PS+, Uu等等。比如CT+代表一定发生，PR-代表可能不会发生，Uu代表无法判断这个事件的真实性。

ESP：FactBank中对事件event的定义也叫做 ESPs（Event Selecting Predicates），根据是否引入新的来源来判断事件的真实性，可以分成SIPs(Source Introducing Predicates) 和NSIPs (Non-Source Introducing Predicates)，SIP和NSIPs的概念十分重要，解释如下：

Relevant source and relevant source ID: 一般事件的相关的来源都是采取嵌套的形式表示，如：Tom_AUTHOR，如果relevant source ID是Tom，表示为s1，那么Tom_AUTHOR应该被表示为s1_s0，s0代表AUTHOR，事件相关源的定义如下：

Source role: 有cognizer和anchor两种，cognizer是直接致力于事件真实性的来源，而anchor则是代表cognizer对从属事件的真实性承诺的来源。如果事件的Source role不存在，那么事件的真实性就是Uu。对于句子E1中的事件rain而言，Tom是cognizer，AUTHOR既是cognizer也是anchor，AUTHOR是cognizer，因为它对rain这个事件的真实性也有贡献，是anchor的原因是因为它是“Tom对rain这个事件做出真实性承诺”的来源。

SLINK：即从属链接(Subordination Link)，SLINK用来表示两个事件之间的关系，包括MODAL, EVIDENTIAL, FACTIVE等，比如对于predicted和demise两个事件，若SLINK表示为predicted_demise_EVIDENTIAL，那么就代表这两个事件之间有一个可信的（evidential）连接。

方法和模型

两步走的方法

首先对于原始的事件，将其分成nonUu/Uu/OTHER三个类别，nonUu代表事件有着明确的可信度，如CT+/-, PR+/-, PS+/-，Un则代表事件真实性无法确定，OTHER是特殊情况，一般数量很少。这一步是通过监督学习模型完成的（最大熵模型），作者认为用机器学习的模型先进行分类之后，在剩下的那些nonUu类别中，使用基于规则的方法能够更好的识别除了Uu之外的其它类别，即CT+/-, PR+/-, PS+/-。

监督学习模型

Basic Features

模型中需要考虑如下Basic Features，即机器学习的一些特征：

当前事件，当前事件的POS（在句子的位置），当前事件的Relevant source and relevant source ID（相关源），事件的Source role（源角色），事件在句法依存树中的深度，事件的polarity and modality（形态和极性），事件的时态（如果它是动词），当前事件是否为SIP，事件的SLINK（从属链接）。

事件的polarity and modality在语料库FactBank中已经标注了，标注由两部分组成：POS/NEG，以及一个辅助的情态动词。比如POS_may代表一个事件被辅助情态动词may修饰；NEG_could代表事件被情态动词could修饰，同时这个事件是否定的。

Upper ESP Features

在Saudi的基于规则的模型中，充分利用了上级的ESPs（upper ESPs）和事件之间的关系来计算事件的真实性，基于这一点，作者提出了一些上级的ESP特征来增强监督学习模型，特征如下：

当前事件的上层SIP，事件的上层SIP触发的评估级别，上层ESP与事件之间的依赖关系，上层ESP的类别，上层ESP是SIP还是NSIP

事件的上层ESP是依赖关系树中，和当前事件最接近的ESP节点。评估级别是从上到下遍历依赖关系树时，每次找到新的SIP时创建的依赖关系嵌入的级别（每次找到SIP时会有一个新的级别）。

每个句子的默认评估级别为L0，与句子本身相对应。考虑以下句子：

E3具有三个评估级别：L0,L1,L2。事件told和said是SIP（需要引入新的来源来判断事件的真实性），它们触发L0，L1并分别介绍Tom，John。told事件只有默认来源AUTHOR（句子中没有任何其它人对told这个事件负责）；said事件有两个来源：AUTHOR，Tom_AUTHOR；事件go有四个来源：AUTHOR，Tom_AUTHOR，John_AUTHOR，John_Tom_AUTHOR。 attend事件受go事件的支配（go...to...attent），事件go是一个NSIP（没有引入新的来源来判断事件的真实性）。因此，事件go与attent的来源相同。

将SIP分为3类，共20类：

预设类型，包括以下4类：disclose, know that, forget, pretend
意见和报告类型，包括以下15类：say, imply, think, sure, deny, know_if,conjecture, lookLike, skeptical, doubt, fear, unsure,announce, expected, imagine
疑问类型，仅包括1类：wonder

类型分组，19个类别：

预设类型，仅包括I类：stop
隐式类型，包括以下6类：manage,fail, cause, refuse, hesitate, attempt.
认知类型，包括以下11类：certainty, impossibility, probability, improbability,possibility, uncertainty, evidence, confirm, suggest,appear, consider.
投影类型，仅包括1类：want

基于规则的模型

使用了机器学习模型进行分类后，需要用基于规则的模型来进一步判断nonUu分类中事件的可信度是CT+/-, PR+/-, PS+/-中的哪个类别，这里需要用到线索词（cue）和作用范围（scope）的概念。线索词是不确定或者有否定含义的词，作用范围是线索词在句子中能够影响的范围。

线索词如下：

表示否定的词：no, not, never, neither, without, et al.

表示可能（PR）的词：probable, likely, expect, appear, et al.

表示可能（PS）的词：possible, may, might, et al.

对于线索词的作用范围，这里采取了一个简单的方式：如果线索词引导了一个从句，那么这个线索词的作用范围就是这个从句，如果没有引导一个从句，那么作用范围是线索词前面的1个词和后面的4个词。

获取事件的可信度，有如下的规则：

如果事件处于否定范围内，或者事件的SLINK为COUNTER_FACTlVE，则事件事实性的极性为负，并且不允许该事件出现在任何非限制性从句中，原因是该句子的核心含义几乎具有与非限制性子句无关，也就是说，出现在非限制性从句中的事件没有什么价值。
如果事件在PS或PR线索词的作用范围内，并且该事件也不允许在任何非限制性从句中，则事件事实性的形式为PS或PR。

为了有效地识别CT +和Uu，在分析句子的句法构造后采用了以下规则集，称为规则集2：

如果事件的source role既是anchor又是cognizer，则事件的事实性为CT +。
如果事件在引用语中、目的性状语从句中、条件结构中，则事件的事实性为Uu；如果事件属于是否从句（whether-clause），则事件事实性的极性为u。从语法的角度来看，当事件在这些上下文中时，它们通常不提供事件的事实性。

实验和结论

使用Mallet 2来训练最大熵分类器，并使用Stanford Parser3来创建组成树和依赖树。
为了与Sauri的系统具有可比性，使用TimeBank作为训练集，而使用ATimeML语料库作为评估性能的测试集。
测试语料库中总共有589个句子和2192个事实值。
测量指标：precision, recall, F1-measure（精度，召回率，FI值）以及宏观和微观平均（macro- and micro-averaging）
考虑CT +，CT-，PR +，PS +，Uu，因为其它事件可信度的类别太少了。
将Sauri的基于规则的De Facto模型作为baseline

表1：语料库中可信度类别分布情况

事实值CT +和Uu的实例在语料库中占大多数

表2：系统中监督学习模型的性能

可以看到，如果使用upper ESP功能，性能将得到改善。尽管Uu的性能不如基线，但与Sauri的系统相比，我们在nonUu类别中得到了和基线相同的F1值。

表3，4：系统的最终性能

在表3中，如果不考虑upper ESP功能，系统将获得比基线更好的宏平均，但更低的微平均。在考虑了upper ESP功能后，宏平均和微平均均高于基线，这表明可以获得更好的CT +，CT-，PR +，PS +，Uu性能，识别真实性更加准确。

表4显示了所有系统的主要事实类型的F1值。可以预期，CT +和Uu的F1值在所有系统中都很高，因为它们的实例最多。在作者提出的系统中，CT-的F1值是第二高的，这表明规则集2在识别事实的负极性方面做得很好。

在没有upper ESP功能的系统中，尽管CT+和Uu的性能低于Sauri系统，但获得了更好的CT-，PR +，PS+性能，这表明在线索词和作用范围的帮助下识别这些事实值非常有效。

考虑了upper ESP后，所有事实类型的F1值（PS +除外）均得到改善，所有这些F1值均高于Sauri系统。这些结果表明，由于上层ESP与嵌入事件的真实性之间存在密切的关系，因此在考虑最大熵模型中的上层ESP特征后，可以对更多事件进行正确分类。此外，该系统中也使用更少的规则，因此该系统比Sauri的模型具有更好的通用性。