A Probabilistic Soft Logic based approach to exploiting latent and global information in event class

【文章来源】

Liu S, Liu K, He S, et al. A Probabilistic Soft Logic based approach to exploiting latent and global information in event classification[C]// Thirtieth AAAI Conference on Artificial Intelligence. AAAI Press, 2016:2993-2999.

【原文链接】

基于概率软逻辑的事件分类中潜在全局信息开发方法:

http://www.nlpr.ia.ac.cn/cip/~liukang/liukangPageFile/AAAI2016Shulin.pdf

 

摘要

诸如事件与事件关联之类的全局信息,以及细粒度实体类型之类的潜在本地信息,对于事件分类至关重要。然而,现有方法通常关注于复杂的局部特征,例如部分语音标签,完全或部分地忽略上述信息。相比之下,本文的重点是充分利用它们进行事件分类。我们注意到,为以前的方法编码一些全局信息(如event-event关联)是很困难的。为了解决这个问题,我们提出了一种可行的方法,它利用概率软逻辑模型以逻辑的形式编码全局信息。实验结果表明,我们提出的方法改进了最先进的方法,并在ACE数据集上达到了迄今为止最好的F1分数。

1 介绍

在ACE(自动上下文提取)事件提取任务中,事件表示为由触发器,事件类型和具有不同角色的相应参数组成的结构。事件提取的目的是在给定文档中提取特定类型的事件实例及其参数。

为此,以前的方法经常采用流水线(管道)架构,包括两个主要步骤(Ji和Grishman 2008; Liao和Grishman 2010; Hong等人2011)如下:(1)事件分类,包括识别事件触发器及其相应事件类型; (2)参数分类,它涉及每个检测到的触发器,识别其参数及其相应的角色。

本文主要关注第一个子任务,即事件分类,它对后续的参数分类很重要并且独立于后续参数分类,并且对最终事件提取性能有很大影响。事件分类的一个难点是触发词的模糊性。例如,“奥巴马击败麦凯恩”中的触发词“beat击败”反映了一个选举Elect事件(意味着奥巴马赢得了总统选举),但它很容易被误认为是攻击Attact事件触发器。现有方法通常侧重于利用复杂的本地特征,例如词性标签。这些特征大部分主要反映了给定单词周围的上下文信息;这些特性称为局部特性。我们认为现有的局部特征不足以消除事件触发词的歧义。诸如事件-事件关联之类的全局信息以及诸如细粒度实体类型之类的潜在本地信息对于该任务是至关重要的。我们使用以下两个句子来证明上述问题。

(1)他离开了公司,他打算直接回家。

(2)奥巴马击败麦凯恩。

全球信息。在第一句中,当我们只考虑第一个“他离开了公司”时,很难区分“左”是触发了传输事件(意味着一个人离开了一个地方)还是终端位置事件(一个从公司退休的人)。如果我们可以从更广泛的角度考虑文本,并观察到第二个子句中存在传输事件(由“go”触发),我们将更有信心将令牌“left”预测为Transport事件触发器,因为Transport与终端位置事件相比,事件更可能与交通事件共同发生。我们将这种类型的全局信息称为事件-事件关联。

潜在的本地信息。在第二句中,如果我们只知道奥巴马和麦凯恩都是人,那么很难将“beat”这个词识别为选举事件触发器,因为“当选事件”和“攻击事件”都发生在个人之间,攻击事件在大多数情况下都会发生。然而,如果我们知道奥巴马和麦凯恩都是政治家,我们将有足够的理由将其预测为选举事件触发器。我们将这种类型的潜在信息称为细粒度实体类型。

几种现有方法已经实现了这种信息的有用性。但是,它们仅部分或机械地使用它们。例如,Liao和Grishman(2010)提出了一种采用事件-事件关联但忽略细粒度实体类型的双通道自组织方法,Hong等人(2011)则相反;Li, Ji, and Huang(2013)提出了一种联合语句级方法来使用事件-事件关联,但是没有在文档级捕获它。因此,这些方法的结果仍然只是局部优化值,性能还远远不能令人满意。

 

图1 我们的方法框架(包括培训和测试过程)

以上观察结果促使我们同时使用上述信息。关键是如何编码全局信息。一种简单的方法是将其表示为特性,并将它们与本地特性组合到一个分类器中。然而,这种范例中最大的问题是不可能将一些全局信息(例如事件-事件关联)编码为一个简单的特征。为了解决这个问题,我们提出了一种可行的解决方案,它以逻辑的形式对全局信息进行编码。我们提出的方法由两部分组成:局部部分和全局部分,分别侧重于捕获局部(包括潜在的)和全局信息(见图1)。具体来说:(1)在本地部分,我们学习一个主要使用局部特征的分类器,为每个触发候选者生成初始判断; (2)在全局部分,我们将“事件-事件”关联和“主题事件”关联集合为全局信息,构建全局信息数据库;(3)我们将初始判断和全局信息形式化为一阶逻辑公式,并使用概率软逻辑(PSL)对其进行建模(Kimmig等人2012; Bach等人2013);(4)最后,我们通过基于PSL的推理生成最终结果。

请注意,在我们的方法中,局部特性未在PSL中建模。原因在于,与马尔科夫逻辑网络(MLNs) (Richardson and Domingos 2006)类似,由于复杂的局部特征通常具有极高的维度,很难使用PSL (Poon和Vanderwende 2010;Venugopal et al . 2014年)。

因此,我们使用不同的模型来捕获局部信息和全局信息。然而,通过PSL中的推断,所有的全局信息都被捕获,并在一个统一的过程中与一组丰富的本地信息结合在一起。因此,我们的方法有望比现有方法获得更好的性能。值得注意的是,通过使用一阶逻辑公式,编码的全局信息对于人类思维来说是直观的,并且表现出良好的可解释性。此外,通过添加公式并提供高可扩展性来合并新的全局信息非常方便。

我们对广泛使用的基准数据集(ACE 2005)进行了实验比较。结果表明,与最先进的方法相比,我们的方法是有效的并且实现了最佳性能。总之,我们的主要贡献是:

  • 我们提出了一种基于PSL的新方法,它包括本地部分和全局部分,将事件分类的本地(包括潜在)和全局信息结合起来。
  • 我们开发了三种类型的潜在特征(见第3节),它们被证明对事件分类非常有效。
  • 我们在不同的文本粒度中探索两种类型的全局信息,事件-事件关联和主题-事件关联。通过这些全球信息,我们提出的方法取得了相当大的进步。

2 背景

2.1 任务描述

事件分类任务是ACE评估的子任务。我们将首先介绍ACE事件提取任务。在ACE评估中,事件被定义为涉及一个或多个参与者的特定事件。事件提取任务要求检测源语言数据中提到的某些指定类型的事件。我们介绍了一些ACE术语,以便于理解这项任务:

实体:一个感兴趣的语义类别中的一个对象或一组对象。

实体提及:对实体的引用(通常是名词短语)。

事件触发器:最清楚地表达事件发生的主要词。

事件参数:参与事件(参与者)的提及。

事件提及:描述事件的短语或句子,包括触发器和参数。

2005 ACE评估包括8种类型的事件,包括33种亚型。在之前的工作之后,我们将这些简单地视为33个独立的事件类型,并忽略它们之间的层次结构。请考虑以下句子:

他在医院去世了。

事件提取器应检测Die事件提及,以及触发词“death”,受害者“He”和地点“hospital”。与标准ACE事件提取任务不同,我们只关注触发器识别和事件类型分类,这意味着在前面的例子中,我们的任务是识别标记“死亡”是一个触发器,它的类型是Die。

2.2 相关工作

事件提取是NLP中越来越热门和具有挑战性的研究课题。已经为此任务提出了许多方法。几乎所有关于ACE事件提取的现有方法都使用监督范式。我们进一步将监督方法划分为基于特征的方法和基于表示的方法。

在基于特征的方法中,已经利用各种策略将分类线索(例如序列和解析树)转换为特征向量。Ahn(2006)使用词汇特征(例如,全字,pos标签),句法特征(例如,依赖特征)和外部知识特征(WordNet)来提取事件。灵感来自One Sense Per Discourse(Yarowsky 1995)的假设,Ji和Grishman(2008)将相关文献的全球证据与当地的事件提取决策相结合。为了从文本中获取更多线索,Gupta和Ji(2009),Liao和Grishman(2010)以及Hong等人(2011)提出了ACE事件任务的跨事件和跨实体推理。 Li,Ji和Huang(2013)提出了一个联合模型来捕捉触发器和参数的组合特征。

在基于表示的方法中,候选事件提及通过嵌入来表示,嵌入通常被馈送到神经网络中。在事件分类方面提出了两个相似的相关工作(Chen et al.2015; Nguyen and Grishman 2015)。Nguyen和Grishman(2015)将卷积神经网络(CNNs)用于自动提取事件分类的句子级特征。Chen等人(2015)提出了对CNNs的动态多池操作,以捕获更好的句子级功能。

3 局部部分

Chen和Ng(2012)证明,统一执行触发器识别和分类优于单独处理它们。与之前的工作类似,我们将这些活动建模为单词分类任务。句子中的每个单词都是一个触发候选者,我们的目标是将这些候选者中的每一个分类为34个类别中的一个(33个事件类型加上一个NEGATIVE类)。我们学习了一个基于一组局部特征执行此任务的分类器。与标准分类器不同,经过训练的分类器生成的概率分布超过34个可能的标签,而不是单个预测标签。我们使用Logistic回归模型(LR)作为我们的分类器,因为它具有处理高维稀疏特征的能力。以前的工作(Ahn 2006; Li,Ji和Huang 2013)中提供的特征是基本特征。此外,我们开发了几个潜在的功能。

3.1 细粒度实体类型

表1 实体聚类结果示例

 

Hong等人(2011)证明了细粒度实体类型在事件提取中起着重要作用。他们使用从搜索引擎获得的网络信息来描述实体提及。然后,他们根据描述对所有提及进行聚类,并将这些聚类视为细粒度的实体类型。然而,执行在线搜索和提取相关信息的操作导致高时间成本。此外,对大量实体提及进行此类搜索是有问题的,因为大多数搜索引擎对用户的查询频率施加限制。因此,我们不会为此目的使用搜索引擎;相反,我们使用WordNet生成实体提及的描述。详细地说,对于给定的实体提及,我们使用其在WordNet中的相关词,hypernyms上位词和synonyms同义词来描述它。我们基于实体提及的生成描述执行K-means聚类算法。表1显示了我们的结果中的两个聚类。标签是手动标记的。

3.2 触发候选类型

与提到的实体类似,我们还对候选触发器进行了聚类。我们使用相同的策略来生成触发器候选对象的描述。在聚类前,我们会根据其词性标记删除某些不太可能成为触发器的单词。表2显示了我们的结果示例。c1中的单词倾向于表示攻击事件,而c2中的单词是数字和单位,几乎不触发任何事件。

表2 候选聚类结果示例

 

3.3 丰富的上下文功能

正如引言中所讨论的,从广泛的角度来看,信息对事件分类很重要。因此,我们构造了几个特征来捕获与整个句子相关的信息,例如当前句子中所有实体的实体类型。利用前两个聚类,我们构建了三类潜在特征,如下所示:

• RCF:丰富的上下文特性和基本功能的结合。

• FET:细粒度实体类型和基本特征的结合。

• TCT:触发候选类型和基本功能的结合。

4 全局部分

在这一部分,我们收集全局信息并将其合并到PSL模型中。然后,进行推理以对事件类进行最终判断。首先,我们简要介绍PSL。

4.1 概率软逻辑

PSL是关系域中集体概率推理的框架(Kimmig等人2012; Bach等人2013)。与MLNs类似,它使用加权一阶逻辑公式来压缩编码复杂的无向概率图形模型。然而,与MLN相比,PSL带来了两个显着的优势。首先,PSL将MLNs的布尔真值放宽为连续的软真值。这允许对连续值(如相似度得分)进行简单的集成。其次,PSL将一阶公式的语法限制为具有联合体的规则的语法。与软真值约束一起,PSL中的推断是连续空间中的凸优化问题,因此可以使用有效的推理方法来解决。有关详细信息,请参阅参考文献(Kimmig等人, 2012; Bach等人, 2013年)。

4.2 编码全局信息

我们希望将两种类型的全局信息合并到我们的方法中:事件-事件关联和主题-事件关联。事件-事件关联事件共现的概率与其类型密切相关。例如,与Marriage事件相比,Attack事件与Die事件共同发生的可能性要大得多。我们使用条件概率,其表示在观察到t2类型事件的情况下观察t1类型事件的概率,以表示事件-事件关联。我们在句子和文档级别计算这个概率,分别用psen和pdoc表示。

 

在等式1中,t1和t2表示事件类型; 是同一句子中t1类型事件和t2类型事件之间的共现频率;T是所有可能的事件类型的集合。公式2中符号的含义相似,但适用于文档级别。

表3 观测谓词及其对应赋值

 

我们定义了两个指标函数I_{sen}\left ( c_{1},c_{2} \right )I_{doc}\left ( c_{1},c_{2} \right ),其中符号c1和c2表示触发候选。当c1和c2在同一个句子中时,I_{sen}\left ( c_{1},c_{2} \right )为真。I_{doc}\left ( c_{1},c_{2} \right )类似,但适用于文档级别。最后,我们定义了四个谓词来编码PSL模型中的这些信息,这些谓词列在表3的上半部分。符号t1和t2表示事件类型。主题-事件关联关于某个主题的文档倾向于描述几种特定类型的事件。例如,娱乐新闻项目通常描述Marriage和Born类型的事件,但几乎从不包括Attack或Die类型的事件。我们将Latent Dirichlet Allocation(LDA)(Blei,Ng和Jordan 2003)模型应用于ACE语料库,并使用主题标记每个文档。然后,我们计算在主题p上的文档中观察类型t的事件的概率,

 

图2显示了所考虑主题中Attack, Transport和Die事件的分布。如图所示,文档的主题是它所包含事件的强大指示符。例如,关于主题14的文档更可能包含Attack事件而不是Transport事件。

 

图2 Topic-event分布

我们定义一个指标函数I_{t}\left ( c,p \right ),当包含c的文档的主题是p时,它是真的。 最后,我们定义了表3中间部分列出的两个谓词,以便在我们的方法中对此信息进行编码。

4.3 推理

Beltagy,Erk和Mooney(2014)发现PSL中的联合标准公式过于严格,并且对语义文本相似性不起作用。我们的任务也出现了同样的问题。因此,在它们之后,我们重新定义了连接的公式:

I\left ( l_{1} \wedge l_{2} \wedge\cdots \wedge l_{n} \right )=\frac{1}{n}\sum_{i=1}^{n}I\left ( l_{i} \right )

我们定义谓词eventType\left ( c,t \right )以指示候选c触发类型为t的事件。它是我们模型中唯一的目标谓词,在推理过程中没有赋值,因此需要进行预测。所有其他的都是观察到的谓词,这些谓词在推理过程中总是被认为是已知的。表3列出了所有观察到的谓词及其相应的分配,其中candEnt\left ( c,t \right )用于编码概率p_{l}\left ( c,t \right ),这是由局部产生的初始判断。将所有谓词放在一起,我们设计了三个公式来在PSL中应用上述信息(参见表4)。公式f1编码了文档主题和事件类型(主题-事件关联)之间的关系。公式 f2 和 f3分别模拟了句子中事件类型与文档级别之间的关系(事件-事件关联)。

表4 PSL模型中的公式

 

我们在实验中手动设置公式的权重。推理结果为我们提供了最可能的解释,即对谓词eventType的软真赋值。通过为解释中的真值选择一个阈值,我们可以很有把握地选择目标谓词的一组接地原子。

5 实验

5.1 数据集和实验设置

我们在ACE 2005语料库上进行了实验。为了进行比较,我们跟踪了Li,Ji和Huang(2013)的评估:随机选择了来自不同类型的30篇文章作为开发集,随后我们对另外一组40份ACE 2005新闻专线文件进行了盲测。我们使用剩余的529篇文章作为我们的培训数据集。使用Stanford CoreNLP Toolkit处理语料库(Manning等人,2014)。在之前的工作(Liao and Grishman 2010; Hong et al.2011; Li,Ji和Huang 2013)之后,我们使用以下标准来评估结果:

  • 如果触发器的偏移与参考触发器匹配,则会正确识别触发器;
  • 如果触发器的事件类型和偏移量都与参考触发器匹配,则触发器被正确分类。

我们在开发集上搜索了超参数。我们在{50k | k=1,2,…,10}中搜索了细粒度实体簇的数量和触发簇的数量(分别用nfecnftc表示);在{10k | k=1,2,…,10}上的主题数np;在{0.05k | k=1,2,…,20}上的真值阈值thr。这些参数是独立的。本实验选取的值为nfec = 200,nftc = 300,np= 50和thr = 0.6。

5.2 整体表现

表5显示了在盲测试集上获得的实验结果。由于大多数先前的工作没有报告识别结果,我们只将分类性能与本部分中最先进的方法进行比较,而没有在这一部分的其他部分进行鉴定。从这些结果中,我们可以得出以下结论。

1. LR(base + latent)显着优于LR(base),增益提高2.1%,这表明第3节中提出的潜在特征对此任务非常有效。

2. 与LR(base + latent)相比,通过整合全局信息,联合PSL提高了1.4%,从而证明全局信息对于此任务非常重要。总而言之,结合潜在和全局信息使我们提出的方法可以获得总计3.5%的增益。

3. Nguyen的CNN和Chen的DMCNN是这项任务的最新成果,它在最先进的方法中取得了最佳成绩。我们的方法优于它们,并进一步证明了我们的方法的有效性。

表5 整体表现。 LR(base)和LR(base + latent)都是逻辑回归模型。 前一种模型仅使用基本特征,后一种模型另外使用潜在特征。 组合PSL是我们提出的方法,它使用潜在和全局信息。

 

5.3 潜在特征的影响

我们研究了第3节中提出的潜在特征对分类器和我们提出的模型的影响。表6显示了结果(F1值)。显而易见的是,RCF特征使分类器能够实现分类的更多改进而不是识别(0.9%vs. 0.1%),而TCT特征则相反(0.6%vs.1.3%)。先前的观察结果也在联合PSL模型中得到了证实。我们认为这种现象是由于以下原因而发生的:RCF特征反映了给定候选者周围的丰富信息,并且该特定信息可以指示其事件类型;然而,TCT特征是从聚类结果中获得的,这些结果反映了候选者的高级和粗略信息,因此它们只能指示粗事件类型(即它是否是触发器),但不足以指示事件类型。此外,结果还表明,通过结合所有这些特征,分类器和我们提出的方法都实现了相当大的改进(超过1.5%),这表明这些潜在特征对于该任务非常有效。

表6 潜在特征的影响。 RCF,FET和TCT代表我们的三类潜在特征(参见第3.3节)。标有“分类器”的列显示具有不同特征的分类器的结果; 标有“组合PSL”的列显示了我们提出的模型在本地部分具有不同特征的结果。

 

5.4 不同类型全球信息的影响

我们提出的方法使用两种类型的全局信息:事件-事件关联和主题-事件关联。它们的详细效果如表7所示,其中“No Global Information无全局信息(NGI)”表示eventType\left ( c,t \right )的真值直接设置为candEvt\left ( c,t \right )。从表中可以看出,两种类型的全局信息都有助于所提出的模型获得更好的性能。当同时合并它们时,我们可以获得最佳性能。

表7 全局信息的影响

 

5.5 讨论

主题事件关联反映了文档级信息,因此我们将其视为全局信息,并将其应用于我们实验的全局部分。然而,与事件-事件关联不同的是,从技术上讲,它也可以合并到局部部分中。我们构建了两个系统,一个在局部部分对主题事件关联进行编码,另一个在全局部分对主题事件关联进行编码,以研究其影响。我们观察到,在局部部分使用这些信息产生的改善较少(68.8%/ 69.4%)。这可能是因为当这个全局信息与高维局部特征结合时,局部部分无法有效地学习这个单一特征,导致其效果被削弱。该发现可能表明有必要分别处理高维局部特征和全局特征。但是,这个主题超出了这项工作的范围,我们将推迟到未来的研究。

6 结论

我们提出了一种基于PSL的新方法,该方法由局部部分和全局部分组成,用于在事件分类中利用局部(包括潜在的)和全局信息。在局部部分,我们开发了几个潜在的特征,这些特征被证明对事件分类非常有效。在全局部分,我们以不同的文本粒度探索两种类型的全局信息:事件-事件关联和主题-事件关联。实验结果表明,通过结合潜在和全局信息,我们提出的方法总共获得了3.5%的增益。此外,我们优于最先进的方法,并在基准数据集上实现最佳性能。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值