Text Mining for causal relations论文总结

最新推荐文章于 2021-03-31 21:42:40 发布

Rhichard_CHAN

最新推荐文章于 2021-03-31 21:42:40 发布

阅读量192

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/qq_40620534/article/details/112317987

版权

论文专栏收录该内容

1 篇文章 0 订阅

订阅专栏

简述

本篇论文是Girju 和 Dan Moldovan在2000发表的一篇会议论文，论文主要提出了一种因果模式检测与验证方法，自动发现与因果关系相关的普遍适用的词汇句法模式，并对模式应用于文本中得到的因果关系进行消歧。提出了在当时比较新颖的用WordNet去消除动词歧义，通过WordNet，还能自动生成语义模式。

该方法实现主要分两个部分来看:
1、Automatic discovery of lexico-syntactic patterns referring to causation

因果关系词汇句法模式的自动发现

2、Validation of causation patterns and ranking of causation relationships

因果关系模式的验证和因果关系的排序

1、Automatic discovery of lexico-syntactic patterns referring to causation

1.Simple causatives：

The linking verb refers only to the causal link, most of the time being synonymous with “cause”.

E.g. :Earthquakes generate tidal waves.

2. Resultative causatives：

The linking verb refers to the causal link plus a part of the resulting situation.

E.g.: kill (cause to die), melt, dry, break, drop, etc.

3. Instrumental causatives

They express a part of the causing event as well as the result.

E.g., poison (killing by poisoning), hang, punch, clean, etc

1、简单的使役动词：
就是连接动词只指因果关系，大多数时候是原因的同义词。因为我们知道Cause这个单词就是原因的意思，根据这个条件就是把一些符合的动词作相当于Cause单词，就直接符合因果关系。
例如：地震产生潮汐。这里的Generate动词相当于就是“cause” 的意思，就有一个因果关系。

2、表结果的使役动词：
就是连接动词仅指因果关系，加上所导致情况的一部分，就是说动词本身就约束了会产生结果的情况。Kill 是cause to die 导致死亡，melt 导致融化的意思。

3、工具因果关系：
它们表示引起事件的一部分以及结果。它们表达了导致事件和结果的一部分，
和第二个条件的区别在于没有那么明显的一个因果关系，只是引起事件的一部分原因和结果，不直接表现出来。例如poison，作动词是下毒，通过毒药去杀人。

2、Validation of causation patterns and ranking of causation relationships

Patten：

<NP1 cause_vb NP2>

根据对名词的约束，运用Hearts的一个算法，搜索文本去提取存在WordNet因果关系的所有可能的名词短语对，然后针对找到的每对NP1-NP2名词对，去搜索文档中符合（NP1 - Verb/VerbExpression - NP2）形式的所有模式，并输出一系列表示因果关系的动词/动词表达式。

接着，就根据这些对因果动词分类找到符合这三种动词分类的所有动词，在本文中，作者关注的Patten为的显式句内句法模式，其中动词是一个简单的因果关系。然后根据对符合上面的3个分类的动词，根据Patten,运用Hearts的一个算法，运用到Hearst的一个算法中。

最后通过搜索文本集合，提取连接两个选定名词短语的词汇句法模式。

约束

在上面对名词对提取时，在这一步，作者提出了三个约束去验证因果关系，尽量的消除动词的更多歧义，并根据动词上的约束去给划分一个等级。

1. Semantic constraints on NP1

对NP1位置上的名词，针对给定的意义，找到wordnet这个名词对应的意思最符合的一个分类，根据下面的类别判断是否是因果关系类别。
（人类行为、现象、状态、心理特征和事件）

第一个是对动词前面的名词短语的约束：作者的假设是，这些类别代表因果关系类别，而任何不在这个列表中的都表示非因果关系。在WordNet中，每个名词的意思都划分了表达明确事务状态的类别，例如，在WordNet中，excited这个词最普便被归纳为是心理特征，那么属于作者提出的5个因果类里。

2. Semantic constraints on NP2：

在WordNet中，名词应包含概念因果代理，作为因果类。例如，WordNet中“drug” 的第二大常用的意思是“致病因子”。

第二个是对后一个名词短语的约束：
作者认为任何名词都可以来表示原因的一个名词。因此，他这里只使用一个软约束：作结果名词应该包含WordNet中的因果动因这一概念。就是他有能导致因果的意思例，如，单词drug在WordNet中的第二个最常见的词组是因果关系。

3. Semantic constraints on verbs:

Low ambiguity：动词的词义数 <= 7。
High ambiguity：动词的词义数 > 7。
Low frequency：(该特定意思的频率) < (所有其他意思的频率之和) 或（该特定意思的频率）<30
High frequency ：(该特定意思的频率) >= (所有其他意思频率之和）或（该特定意思的频率）>= 30

3.对动词的约束：主要是用来划分等级
这里词义数指的是在wordnet中，这个动词有多少个词义，频率指的是动词在WordNet标记的语料库中出现的次数。
第一个就根据动词的词义数，划分为高低歧义，当动词词义小于等于7时，定义为低歧义，高于7时定义为高歧义，第二个这个动词特有的意思在WordNet标记的语料库中出现的次数小于这个动词的其他所以意思的频率。

基于歧义和频率的歧义因果动词排序。模糊性从最左边的一列增加到右边

表1：基于歧义和频率的歧义因果动词排序。模糊性从最左边的一列增加到右边

根据约束：
例如，动词make被排在末尾，因为它非常模糊（在wordnet1.7中，这个动词有49个词义），并且出现频率很高（在WordNet标记的语料库中出现79次）。

结语

Griju等人在Khoo的基础上，提出消除动词歧义，以一种基于名词和动词语义约束的半监督模式列表验证方法，。通过WordNet，还能自动生成语义模式，每个模式首先通过一个基于wordnet的粗粒度过程进行验证，该过程检测两个名词和动词的语义约束，这些约束必须并充分表明因果关系。但有几个显著的问题是，他们只考虑特定形式的显性因果句法模式，只关注提取显性和简单的使役动词，没有关注隐含因果模式的提取。

参考文献：
1 Nabiha Asghar. “Automatic Extraction of Causal Relations from”