事件、事件抽取与事理图谱

事件、事件抽取与事理图谱

    人类社会是一个静态事物进行动态活动所创造形成的世界,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系,以事件作为知识的基本单元更能反映客观世界的知识,特别是知识的动态性,从认知心理学的角度来看,事件更符合人类的理解与思维习惯。知识库是机器实现认知智能的根本前提之一,如何让机器能够以一种更为接近于人脑知识结构体系的方式武装自己,是信息抽取以及知识工程领域一直致力攻克的方向。目前,以“事件”为核心开展信息抽取、语言资源建设、事理图谱建设等相关工作是新的制高点,本文主要以“事件”为核心,对事件、事件抽取、事件关系抽取、事理图谱相关的知识概念进行了简要的介绍。

一、事件
    事件是什么,有多种定义,从不同的学科角度可以得到不同的答案。哲学上,公元前伟大的哲学家亚理斯多德认为,事件是可以感知的、相对独立的、运动的存在,是一种非静态的概念,一个典型的事件是一个行为的序列或者一系列状态的改变,是随着时间变化的具体事实;在认知学科上,斯坦福大学著名教授zacks[2001]提出,事件是被旁观者所观察到的在现实世界所产生的行为,可以通过时空结构来理解。有趣的是,这位教授还将事件与动作进行了区分,即动作是行为者刻意的行为,动作一定是事件而事件不都能称为动作,动作是客观的,而事件是被观察者观察得到的。语言学方面,Chung[1985]年提出事件结构,认为“事件是谓词、谓词发生的时间段、谓词发生的情况或者条件三个部分组成的术语”;Putejovsky[2000]提出以基础谓词为中心的事件理论;在信息领域,最早由美国国防高级研究计划委员会DARPA举办的Topic Detection and Track(话题检测与追踪)会议,将事件定义成“特定时间、特定地点发生的事情”,一个话题由多个事件组成;在本体研究领域,事件则是在指在某个特定时间和环境下发生的由若干角色参与并表现出若干动作特征的一类事情。
    通过以上的介绍我们可以看到,不同领域对事件的定义存在差异,并且体现了该领域所关注的实际问题。哲学和认知学科中更加关注事件的本源和概念,语言学领域更注重从词法和句法层面探究事件的语法结构和语义;信息领域则更关注事件在信息处理中的应用,包括事件的识别、获取以及事件应用;本体领域则更关注更细粒度的事件表示,力求从表示、事件关系、事件与概念本体之间的关系做体系的分析。而在这些存在差异的理解当中,也存在着一个共同之处,即都认为事件是人类知识中重要的组成部分,世界是由动态事件组成的,而且都在时间的刻画和表示形式上不断钻研。

二、事件抽取
    事件抽取(event extraction)是信息抽取领域中重要的一个组成部分。目前关于事件抽取这一任务相关的技术评测主要包括MUC、ACE、TDT、TAC-KBP、BioNLP等,其中由美国DARPA于1987-1997年举办的MUC(Message Understanding Conferences)消息理解会议,任务包括命名实体识别、模板关系抽取等,其中的场景模板(Scenario Template)填充任务涉及事件抽取;作为MUC的后继者,由美国国家标准与技术研究所NIST先后在1999年至2008年举办的ACE(Automatic Content Extraction)系列评测,其中的事件探测与识别VDR任务涉及事件抽取;2009年ACE由TAC(Text Analysis Conference )正式接棒,ACE成为TAC的一个子任务;由DARPA资助举办的TDT(Topic Detection and Track)话题检测与追踪会议于1998年到2004年举办,起源于早期的事件检测与追踪项目EDT(Event Detection and Tracking)是以事件作为核心的评测会议之一,主要关注话题的产生与变化;BioNLP是一个生物文本挖掘评测项目,其中包括生物事件的抽取任务。
    事件抽取,就这个任务而言,目前可以分成两种,即元事件(meta event)抽取和主题事件(topic event)抽取。元事件由Filatova[2004]等人提出,表示一个动作的发生或状态的变化,由表示动作的动词或名词来驱动,包括参与该动作行为的主要成分(如时间、地点、 人物等)。目前学界和工业界谈论事件抽取,大多还是指元事件抽取,ACE是这类事件抽取的代表,ACE对参与评测的事件进行了定义,即事件由事件触发词(Trigger)和描述事件结构的元素(argument)组成。所谓事件触发词,即表示事件发生的核心词,多为动词或名词。元素(argument)又称为事件论元,表示事件的参与者、时间、地点等属性信息。ACE2015定义了8种事件类别(life, movement,conflict,contact等)和33种子事件类别(born, marry,injury, transport,attack等),每种事件类别对应唯一的事件模板,如子事件born,事件模版(template)包括person,time-within,place等。这样,事件抽取就变成了一个事件识别和事件元素识别的任务,后者事件元素识别即根据预先设定的事件模板,抽取相应的元素,类似于一种槽填充任务,也常称作为论元识别。就元事件抽取而言,目前主流的技术包括基于模式匹配、基于机器学习、基于神经网络等的事件抽取方法,其中基于神经网络的事件抽取方法将事件抽取转换成一个有监督的多元分类任务,具体包括句子篇章级事件抽取、基于联合模型、融合外部资源的神经网络事件抽取方法等。
    主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成,与元事件抽取最大的不同在于,主题事件中所包含的多个元事件信息通常都分散于一个或多个文档当中,往往需要确定描述同一主题事件的文档集合,并将这些分散的缘事件进行组合。与元事件的抽取方法不同,主题事件的抽取方法一般需要借助事件表示或者本体框架作为理论支持,从技术上主要分为基于事件框架和基于本体的主题事件抽取两种。而其中的主题事件框架,代表性的有M. Minsky[1974]提出的“Framework for Representing Knowledge”,事件框架描述了一种由不同侧面刻画形成的分类体系,这些侧面描述了事件的不同信息。事件本体是一个与事件框架相关的概念,来源于知识工程和人工智能领域,与形式化描述领域词汇之间相似关系的本体类似,事件本体描述了事件体系中的概念、关系、层次结构以及实例。如Chen[2004]所提出的Domain 、Category 、Event 、Extended Concepts四层本体事件模型,其中每个Domain下包括多个领域Category,Category下一组事件集合组成,即对应事件层,Extended Concepts层定义了事件概念和对象概念。

三、事件关系抽取
    目前关于领域事件抽取的工作大体还是沿着元事件抽取这种方法,如金融领域中常见的并购事件抽取,往往首先需要定义并购事件的事件结构,即触发词如“收购”、“并购”等,并购的论元结构,包括并购方、被并购方、并购金额、并购时间、并购状态、并购地点等,领域事件中的抽取精度随着事件结构的复杂度上升而下降,这也是目前领域事件知识库构建的难点之一。元事件抽取集中于单个事件类型的事件信息抽取,忽略事件之间的关系,主题事件抽取则更关注多个事件类型之间在话题上的一种变化,事实上,事件关系识别是信息抽取领域与事件抽取相关的另一个任务,目前关于事件关系相关的工作代表性的包括Framnet、TDT、脚本(script)、叙事性事件链(narrative event chain)
    由Charles J. Fillmore[2003]提出的Framenet是与事件相关的一项重要工作,严格上来说,它与事件关系不直接相关,而是一种词汇语义描述框架。Framenet也称为框架语义学(Frame Semantics),该理论力求通过定义和描述事件、关系、实体以及参与者等的框架来对词义进行系统的描述和解释。Frame框架是整个Framet的核心,也是词语的刻画方法,每个Frame框架中有多个框架元素,这些元素描述了这个frame的一些结构化信息,例如Caustion是Framnet中的一个框架,这个框架可以被cause.v, cause.n,make.v这几个词使用,该框架定义的框架元素包括原因主体(cause)、影响主体(Affected)、影响(Effect),这几个元素对“造成”这个词框架的意义进行了描述。此外,各个框架之间也存在着多种有向关系类型,包括继承关系、透视关系、总分关系、先后关系、起始关系、致使关系、使用关系、参照关系等。例如,“赠送 ”是 “给予 ”的子框架,“聊天”是 “说话”的子框架,“昂首阔步”是 “走路” 的子框架。这些框架之间的关系,描绘出了现实世界中语义的整体概念信息。从项目首页的介绍中我们可以看到,目前Frament定义了超过1200个Frame框架、1.3W个词语、1W余个框架元素、超过1800个框架关系以及超过20W的标注句子。这些资源对于我们构建事件本体并定义事件间关系具有很大的借鉴意义。
    TDT评测是更接近于话题事件抽取的一个工作,该评测细分成报道切分(story segmentation)、话题跟踪(story tracking)、话题检测(story detection)、首次报道检测(new event detection)以及关联检测(link detection)共5个子任务,这5个子任务都更加关注话题之间在时间信息上的一种变化。
     Scripts,又称script理论,最早由Silvan Tomkins[1954]提出作为affect theory理论的一个扩展,后期由Schank[1997]进一步发展,并进一步称为框架理论的一个延伸,旨在描述知识结构,尤其是对符合事件序列的表示上。关于script,目前有多种定义,代表性有Eramus[2010]所定义的“a set of expectations about what will happen next in a well-understood situation”,从构成上来说,一个脚本由一个为了完成特定目标而进行的一系列的动作或事件所形成的框架,其中的动作或事件在某些场合下也被称作场景(scene)。餐厅脚本(Restaurant script)是脚本理论中的经典例子,如“tom finds a free place, sits, waits for the waiter to take his order and finally eats his meal”,其中的”find place”,“sit”,”wait”,“eat”等动作构成了“餐厅就餐”这个脚本事件。
    Chambers[2008]在scripts的基础上进一步提出了叙事性事件链(narrative event chain)这个概念,认为这是一种新的知识结构化表示方式,叙事性事件链由一系列的叙事性事件(narrative event)按照时序组合形成,narrative event是一个包含事件event和事件参与者的元组。进一步的,在这个工作的基础上,先后提出了叙事性事件链自动抽取以及叙事性事件链预测等任务,相关的评测包括TimeML系列。TimeML是在一个关于问答系统的AQUAINT 项目里首次被提出来,从 TimeML的标注形式来看,(Subordination Link)标签用来描述文本中两个事件之间的关系。TimeML评测主要还是集中在对时序关系事件的识别,大致任务分成两部分,一是识别两个事件实体,其次是判定两个事件之间的时序关系。而到了后期,事件之间的因果关系(Causality)逐步进入研究视野,Wolff [2007]提出了动态事件模型,将因果概念分成CAUSE, ENABLE and PREVENT三个子概念类型。具有代表性的因果关系标注语料库有Palmer et al[2005]提出的PropBank 以及Prasad et al[2007]提出的Penn Discourse Treebank (PDTB),前者标注了动词与动词,动词与从句(clause)之间的因果关系,后者标注了从句(clause)之间的因果关系,两个因果关系标注语料库进一步推动了事件因果关系抽取技术的发展,Zhao[2017]是在因果关系抽取上一个代表性工作。

四、事理图谱
    有了事件,事件之间的关系,再以一种组织体系进行表示,就可以构建起一个事件知识库。事实上, Chambers[2008]所提出的叙事性事件链(narrative event chain)这个概念已经很接近于事理图谱的概念,到后期,随着知识图谱的发展,以事件为核心进行知识组织表示的方式先后被提出。代表性的,Glavas and Snajder [2015]提出了eventgraphs的概念,事件图谱事以事件为基础信息的新型结构化表示方式,图谱中的节点表示事件提及(individual mentions of events),节点之间的边表示事件提及之间的时间(temporal)关系和指代(coreference)关系,并提出了一个包含三个阶段的端到端图谱自动构建系统和标注语料库EvExtra;Li[2018]进一步提出事件演化图谱(event evolutionary graph)的概念,定义为由抽象事件演化模式组成的知识库。在借鉴以上具有启发性的工作基础上,我们进一步将事理图谱的概念进行拓展,我们认为:“事理图谱是以“事件”为核心的新一代动态知识图谱,结构上具有抽象概念本体层和实例等多层结构;构成上包括静态实体图谱和动态事件逻辑图谱两部分;功能上注重描述事件及实体在时空域上的丰富逻辑事理关系(顺承、因果、反转、条件、上下位、组成等);应用上可通过抽象、泛化等技术实现类人脑的知识建模、推理与分析决策。”。当然,事件图谱也好,事件网络也行,事理图谱也好,从本质上来说,这只是一个知识的结构化表示方式。而就事理图谱的未来发展而言,如何进一步确定和构建一个灵活可为机器所利用的知识组织体系,一种更为合适的事件表示方法,一套从抽象概念层的事件逻辑表示和泛化框架,一个将事理逻辑与静态知识融合共通的运作方式等问题,将是信息抽取、知识工程领域中需要攻克的难题。

五、总结
    事件,是人类的命题记忆的组织单元,也是信息时代的一种信息承载方式。作为信息抽取领域的一项重要任务,事件抽取技术已经取得了一定的发展,关于事件本身的本体理论研究、事件抽取技术以及事件关系抽取技术的研究、以事件为中心进行的知识库研究、以事件作为知识表示的应用研究等都在如火如荼地进行,对于事件的应用需求也日益剧烈,为了实现这一目标,需要学界和业界共同努力。以事件为核心的势力图谱将是未来知识图谱中的一个制高点,我们在知识图谱和事理图谱上开展了一些基础和推进性的工作,欢迎大家关注我们的公众号Datahorizon以及我们的工作,新的2019已经来临,让我们携手并进,共同推进技术升级以及应用落地。

参考文献

[1]Zacks[1985], Zacks, J. M., & Tversky, B. (2001). Event structure in perception and conception. Psychological Bulletin, 127, 3-21

[2]Chung[1985], Chung & Timberlake, Argument Structure and Grammatical Relations: A Crosslinguistic Typology,1985,214

[3]Putejovsky[2000], J. Putejovsky .“Type Coercion and Lexical Selection”, in ), Semantics and the Lexicon, Williamson T. 2000.

[4]Eramus[2010], Erasmus, et al . The potential of using script theory in consumer behaviour research. Journal of Family Ecology and Consumer Sciences

[5]Chen[2004],Chen, et al,2004 ,Multi-level Definitions and Complex Relations in Extended-HowNet, Workshop on Chinese Lexical Semantics,

[6]Minsky[1974], Marvin Minsky. A Framework for Representing Knowledge… MIT-AI Laboratory Memo 306, June, 1974.

[7]Wolff [2007],Wolff, P. Representing causation. Journal of Experimental Psychology: General, 136, 82-111

[8]Palmer et al[2005], The Proposition Bank: An Annotated Corpus of Semantic Roles,Computational Linguistics,2005

[9]Prasad et al[2007],Rashmi Prasad et al,The Penn Discourse Treebank 2.0 Annotation Manual. The PDTB Research Group. December 17, 2007.

[10]Charles J. Fillmore[2003], Filmore. Background to Framenet[J].International Journal of Lexicography,2003,16(3):235- 250.

[11]Chambers[2008],Chambers and Jurafsky. Unsupervised Learning of Narrative Event Chains. ACL- 08

[12]Schank[1977],Roger C Schank and Robert P Abelson. Scripts, plans, goals, and understanding: An inquiry into human knowledge structures (artificial intelligence series). 1977.

[13]Glavas and Snajder[2015],Construction and evaluation of event graphs,graphs, natural language processing,Volume 21, Issue 4

[14]Zhao et al[2017] Sendong Zhao, et al, Constructing and embedding abstract event causality networks from text snippets. In WSDM, pages 335–344. ACM, 2017

[15]Li et al.[2018]Zhongyang Li, Xiao Ding and Ting Liu∗,Constructing Narrative Event Evolutionary Graph for Script Event Prediction, IJCAI,2018

[16]Filatova[2004], Filatova, E., Hatzivassiloglou, V.: Event-based Extractive Summarization. In: Proceedings of ACL 2004 Workshop on Summarization

文章为原创,如有转载,请注明出处。
作者简介:
刘焕勇,中国科学院软件研究所,主要从事信息抽取、社会计算、知识图谱与事理图谱相关研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系作者:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页