Text Mining for causal relations论文总结

简述

本篇论文是Girju 和 Dan Moldovan在2000发表的一篇会议论文,论文主要提出了一种因果模式检测与验证方法,自动发现与因果关系相关的普遍适用的词汇句法模式,并对模式应用于文本中得到的因果关系进行消歧。提出了在当时比较新颖的用WordNet去消除动词歧义,通过WordNet,还能自动生成语义模式。


该方法实现主要分两个部分来看:
1、Automatic discovery of lexico-syntactic patterns referring to causation

因果关系词汇句法模式的自动发现

2、Validation of causation patterns and ranking of causation relationships

因果关系模式的验证和因果关系的排序


1、Automatic discovery of lexico-syntactic patterns referring to causation

1.Simple causatives:

The linking verb refers only to the causal link, most of the time being synonymous with “cause”.

E.g. :Earthquakes generate tidal waves.

2. Resultative causatives:

The linking verb refers to the causal link plus a part of the resulting situation.

E.g.: kill (cause to die), melt, dry, break, drop, etc.

3. Instrumental causatives

They express a part of the causing event as well as the result.

E.g., poison (killing by poisoning), hang, punch, clean, etc


1、简单的使役动词:
就是连接动词只指因果关系,大多数时候是原因的同义词。因为我们知道Cause这个单词就是原因的意思,根据这个条件就是把一些符合的动词作相当于Cause单词,就直接符合因果关系。
例如:地震产生潮汐。这里的Generate动词相当于就是“cause” 的意思,就有一个因果关系。

2、表结果的使役动词:
就是连接动词仅指因果关系,加上所导致情况的一部分,就是说动词本身就约束了会产生结果的情况。Kill 是cause to die 导致死亡,melt 导致融化的意思。

3、工具因果关系:
它们表示引起事件的一部分以及结果。它们表达了导致事件和结果的一部分,
和第二个条件的区别在于没有那么明显的一个因果关系,只是引起事件的一部分原因和结果,不直接表现出来。例如poison,作动词是下毒,通过毒药去杀人。


2、Validation of causation patterns and ranking of causation relationships

Patten:

<NP1 cause_vb NP2>

根据对名词的约束,运用Hearts的一个算法,搜索文本去提取存在WordNet因果关系的所有可能的名词短语对,然后针对找到的每对NP1-NP2名词对,去搜索文档中符合(NP1 - Verb/VerbExpression - NP2)形式的所有模式,并输出一系列表示因果关系的动词/动词表达式。

接着,就根据这些对因果动词分类找到符合这三种动词分类的所有动词,在本文中,作者关注的Patten为的显式句内句法模式,其中动词是一个简单的因果关系。然后 根据对符合上面的3个分类的动词,根据Patten,运用Hearts的一个算法,运用到Hearst的一个算法中。

最后通过搜索文本集合,提取连接两个选定名词短语的词汇句法模式。

约束

在上面对名词对提取时,在这一步,作者提出了三个约束去验证因果关系,尽量的消除动词的更多歧义,并根据动词上的约束去给划分一个等级。

1. Semantic constraints on NP1

对NP1位置上的名词,针对给定的意义,找到wordnet这个名词对应的意思最符合的一个分类,根据下面的类别判断是否是因果关系类别。
(人类行为、现象、状态、心理特征和事件)

第一个是对动词前面的名词短语的约束:作者的假设是,这些类别代表因果关系类别,而任何不在这个列表中的都表示非因果关系。在WordNet中,每个名词的意思都划分了表达明确事务状态的类别,例如,在WordNet中,excited这个词最普便被归纳为是心理特征,那么属于作者提出的5个因果类里。

2. Semantic constraints on NP2:

在WordNet中,名词应包含概念因果代理,作为因果类。例如,WordNet中“drug” 的第二大常用的意思是“致病因子”。

第二个是对后一个名词短语的约束:
作者认为任何名词都可以来表示原因的一个名词。因此,他这里只使用一个软约束:作结果名词应该包含WordNet中的因果动因这一概念。就是他有能导致因果的意思例,如,单词drug在WordNet中的第二个最常见的词组是因果关系。

3. Semantic constraints on verbs:

Low ambiguity:动词的词义数 <= 7。
High ambiguity:动词的词义数 > 7。
Low frequency:(该特定意思的频率) < (所有其他意思的频率之和) 或(该特定意思的频率)<30
High frequency :(该特定意思的频率) >= (所有其他意思频率之和)或(该特定意思的频率)>= 30

3.对动词的约束:主要是用来划分等级
这里词义数指的是在wordnet中,这个动词有多少个词义,频率指的是动词在WordNet标记的语料库中出现的次数。
第一个就根据动词的词义数,划分为高低歧义,当动词词义小于等于7时,定义为低歧义,高于7时定义为高歧义,第二个这个动词特有的意思在WordNet标记的语料库中出现的次数小于这个动词的其他所以意思的频率。


基于歧义和频率的歧义因果动词排序。模糊性从最左边的一列增加到右边

表1:基于歧义和频率的歧义因果动词排序。模糊性从最左边的一列增加到右边

根据约束:
例如,动词make被排在末尾,因为它非常模糊(在wordnet1.7中,这个动词有49个词义),并且出现频率很高(在WordNet标记的语料库中出现79次)。


结语

Griju等人在Khoo的基础上,提出消除动词歧义,以一种基于名词和动词语义约束的半监督模式列表验证方法,。通过WordNet,还能自动生成语义模式,每个模式首先通过一个基于wordnet的粗粒度过程进行验证,该过程检测两个名词和动词的语义约束,这些约束必须并充分表明因果关系。但有几个显著的问题是,他们只考虑特定形式的显性因果句法模式,只关注提取显性和简单的使役动词,没有关注隐含因果模式的提取。


参考文献:
1 Nabiha Asghar. “Automatic Extraction of Causal Relations from”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值