使用全局优化方法识别中文事件因果关系

最新推荐文章于 2024-06-28 09:53:39 发布

懒人的理想主义

最新推荐文章于 2024-06-28 09:53:39 发布

阅读量970

点赞数

分类专栏：论文总结个人见解

本文链接：https://blog.csdn.net/qq_43631037/article/details/113251420

版权

个人见解同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

论文总结

2 篇文章 0 订阅

订阅专栏

使用全局优化方法识别中文事件因果关系

一、语料库标注及基准系统

本文使用ACE2005中文语料库作为基础语料

1、因果语料库标注

本文标注一个中文事件因果关系语料库；其中，事件因果关系分为显示因果关系和隐式因果关系。

1.显示因果关系

显示因果关系由一个表示因果关系的词连接2个事件，且通常在同一句子内，易于标注。如：
在这里插入图片描述
如果2个事件在同一句子内，且事件之间连接词在词表中，则标注为因果关系。注：常用的中文因果标志词有：因为、由于、因此、以致此、于是、导致、致使、因、造成、结果、所以、因而等。

2.隐式因果关系

对于跨句子或者段落的事件，一般不存在明确表示因果关系的句子，需要根据文章内容和语义知识识别因果关系。如：
在这里插入图片描述
两个句子中，没有明确因果关系词连接“死亡”与“起诉”事件。
本文参考2个因果关系判别模型进行标注，对于事件C和E：

1）当C 发生时,E 发生的概率远远大于C 不发生时E 发生的概率,则认为C 与E 为因果关系:
在这里插入图片描述
2） C 和E 为因果关系,当且仅当如果C 不发生,则E 不发生:

3.非因果关系

有部分事件满足以上定义，但不存在因果关系，主要有一下3类：
1） 2个事件相互对应，一个事件发生，则另一个事件必然发生。
在这里插入图片描述
2） 2个事件互为共现事件，即两个事件经常共同出现。

3）2个事件为目的关系。

2、基准系统

使用的特征如下：
在这里插入图片描述

二、全局优化模型

分类器独立地对每一对事件进行因果关系识别,而没有利用文档内其他事件对的信息,识别结果容易产生矛盾。为此，使用整数线性规划的方法进行事件因果关系识别。该方法结合多种约束条件,达到事件对概率之和最大化。

1.目标函数

以文档为单位，对文档内的所有事件进行优化
在这里插入图片描述
其中：E为文档内所有事件的集合；r为事件因果关系，取值为c时表示具有因果关系,取值为c 时表示没有因果关系; x 取值为１时,表示事件对具有r关系,否则表示没有r关系; P(r|ei,ej) 表示分类器得到的事件对之间r关系的置信度。当没有任何约束时,最优化目标函数等价于完全使用分类器分类结果。
但是,分类器没有考虑同文档内其他事件的信息,为此,提出一系列约束,根据文档信息确定部分事件对关系,使目标函数最优化。

2.基本约束条件

1） 唯一性：事件对(ei,ej)非之间的关系是唯一的,即因果或非因果关系,
x(ei,ej,c)＋x(ei,ej,c)＝１ ∀ei,ej ∈E．

2）非自反性：对于事件对(ei,ej),如果其具有因果关系x(ei,ej,c)＝１,则x(ej,ei,c)＝０, x(ei,ej,c)＋x(ej,ei,c)≤１ ∀ ei,ej ∈E．

3）同指传递性：对于２个事件对(ei,ej)和(ei, ek),如果x(ei,ej,c)＝１且ej 与ek 为同指事件, 则x(ei,ek,c)＝１,
x(ei,ej,c)＝１∧coreference(ej,ek) ⇒x(ei,ek,c)＝１ ∀ei,ej,ek ∈E．
函数coreference(ej,ek)用于计算事件对(ej, ek)是否存在同指关系.如果存在同指关系,该函数返回布尔值真。

4）非传递性：对于３个互相不同指的事件ei,ej, k,如果ei→ej 且ei→ek,则ej /→ek,
x(ei,ej,c)＋x(ei,ek,c)＋x(ej,ek,c)≤２ ∀ei,ej,ek ∈E．

3.限定性约束条件

1）因果标志词约束：如果２个事件在同一句子内,且事件之间存在因果标志词,则将其关系置为因果关系,
Dist(ei,ej)＝１∧conj∈ Causal_Set ⇒x(ei,ej,c)＝１ ∀ei,ej ∈E.
其中:Dist(ei,ej)＝１表示事件对(ei,ej)在同一个句子内,否则返回０;conj表示２个事件间的连接词;Causal_Set表示因果标志词集合。

2）事件类型约束：如果２个事件在同一句子内,且２个事件类型typei 和typej 在开发集内的共现次数大于某个阈值T,且２种类型之间为因果关系的比率大于某个阈值α１,则将其关系置为因果关系,
Dist(ei,ej)＝１∧ Count(typei,typej)≥ T ∧ Rate(r(c|typei,typej))≥α１ ⇒x(ei,ej,c)＝１ ∀ei,ej ∈E．
其中:Count(typei,typej)表示２个事件类型typei 和typej 在开发集内的共现次数,Rate(r(c|typei, typej))表示２种类型typei 和typej 之间为因果关系的比率.

3）论元角色约束：如果第１个事件中的关键论元角色的同指论元(即同指实体)在第２个事件所在句子中出现,则认为事件对之间为因果关系,
argk ∈ei ∧argk ∈ Arg_Set∧ Dist(argkT,ej)＝１ ⇒x(ei,ej,c)＝１ ∀ei,ej ∈E． (１１) 其中论元 Argk 的同指论元为argTk .

三、实验结果

1.实验设置

使用ICTCLAS 2015工具进行分词和Stanford Parser进行句法分析和依存分析，使用Mallet工具包的最大熵分类器和Gurobi工具进行全局优化。

2.实验结果

在这里插入图片描述

总结

本文提出一种基于全局优化的中文事件因果关系识别方法,实验结果表明本文提出的方法性能比基准系统有一定提升。本文提出的基本约束条件能够有效消除单纯使用分类器识别造成的结果矛盾, 而限定性约束条件能够利用事件对之外的其他事件信息有效提升系统识别性能。

懒人的理想主义

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
使用全局优化方法识别中文事件因果关系

使用全局优化方法识别中文事件因果关系目录使用全局优化方法识别中文事件因果关系一、语料库标注及基准系统1、因果语料库标注1.显示因果关系2.隐式因果关系3.非因果关系2、基准系统二、全局优化模型1.目标函数2.基本约束条件3.限定性约束条件三、实验结果1.实验设置2.实验结果总结一、语料库标注及基准系统本文使用ACE2005中文语料库作为基础语料1、因果语料库标注本文标注一个中文事件因果关系语料库；其中，事件因果关系分为显示因果关系和隐式因果关系。1.显示因果关系显示因果关系由一个表示
复制链接

扫一扫