中科院刘康：低资源环境下的事件知识抽取

最新推荐文章于 2024-02-13 11:34:03 发布

「已注销」

最新推荐文章于 2024-02-13 11:34:03 发布

阅读量2.2k

点赞数 1

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/106964715

版权

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年6月20日，第16期“AI未来说·青年学术论坛”NLP前沿技术及产业化线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。中科院刘康带来报告《低资源环境下的事件知识抽取》。

中科院刘康的报告视频

刘康，中国科学院自动化研究所模式识别国家重点实验室研究员，博士生导师。研究领域包括信息抽取、网络挖掘、问答系统等，同时也涉及模式识别与机器学习方面的基础研究。在自然语言处理、知识工程等领域国际重要会议和期刊发表论文90余篇，Google Scholar引用6300余次，单篇引用1100余次。曾获COLING 2014最佳论文奖、Google Focused Research Award、中国中文信息学会“汉王青年创新一等奖”（2014年）、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖（2018年）等多项学术奖励。2016年入选中国科学院青年促进会，2019年入选北京智源人工智能研究员青年科学家。兼任中国中文信息学会青年工作委员会主任、语言与知识计算专业委员会秘书长等学术职务。

报告内容：知识图谱是人工智能和核心基础设施之一，现有知识图谱多关注于以实体为核心的静态知识，缺乏对于以事件为核心的动态知识的刻画和构建。本报告结合研究组近些年的工作，主要介绍低资源环境下的事件知识的抽取基本方法，包括事件识别、事件要素抽取、事件关系挖掘等方面的最新研究进展。

低资源环境下的事件知识抽取

刘康研究员的研究方向是知识图谱，旨在从大量语料中抽取知识从而构建大规模知识图谱，服务上层应用的研究。近年来，知识图谱研究是个热点问题，知识图谱广泛应用于诸多AI应用如智能问答、对话、推理、搜索引擎等等。知识图谱应用能够更好地帮助AI系统更好地理解数据背后语义信息，包括数据和数据语义关系，从而提供更加精准AI服务。

目前大家能够看到知识图谱，大部分是以实体为核心，也就是说尝试从大量文本中抽取一些实体，同时挖掘出实体和实体之间语义关系，从而对于背后数据进行语义层面上精准描述。我们能够看到大部分知识图谱里，每一个节点都是一些实体，实体和实体边表示两个实体的关系。例如，奥巴马曾经是美国总统，奥巴马和美国是两个实体，两个实体的边表示曾经是总统关系。在下面知识图谱里，最基本三元组是实体关系三元组，由两个实体以及他们的边组成。

这样图谱往往只是静态信息的刻画描述，文本中还存在大量的知识，例如我们可以想象每天接触很多新闻网页，大部分并不是以实体为核心进行描述，往往是以发生的事件进行刻画描述。对于事件这种类型知识，已有实体为核心知识图谱似乎不能精准描述这一类型的知识。

这样背景之下，很多研究者开始关心以事件为中心知识图谱，在这个知识图谱上面每一个节点不再是实体，而是具体的事件，节点和节点的边表示事件的关系。这些事件本身是有框架的。什么算事件呢？结婚事件、暴恐事件、离职事件、地震事件，每一个事件下面都是有一个边，边定义了事件类型。例如地震的事件，地震的时间、震级、震源深度、灾难等级等等，这些信息都是组成描述属性框架层面的东西。

要构建大规模事件图谱，首先需要从文本中抽取各种类型的事件，同时把描述这些事件属性信息自动抽取出来，这是构建大规模事件图谱首要步骤。

知道了各种各样事件类型后，第二步是要分析事件和事件之间语义关系，包括因果关系、时序关系、子事件和主事件关系等，完成这两个步骤才能构建大规模事件图谱。

根据ACE定义，从文本中抽取一个事件是要从非结构化句子或一段文本中实现结构化的过程。例如“Baary Diller on Wednesday quit as chief ofVivendi Universal Entertainment”这句话描述一个人从一个公司离职了。首先要判断出这句话里描述含有一个事件，同时表示是离职事件，但事件在文本中往往没有具体的实体能够指出这是事件，通常说这句话是表达了这个事件，但很难指出来这个事件是由哪个词表达出来的。

因此，一般会把触发事件的动词作为触发事件的出发词。例如quit是一个动词，事件某某带有某种动作，而quit触发了事件动作。所以我们识别一句话里是不是包含某一个事件的时候，第一步要判断这句话是不是包含事件触发词，触发词是不是能够触发某一种类型的事件。即第一步要判断quit是不是触发词，第二步判断quit到底触发是哪一类型的事件。

除此之外，还要判断这句话里所提及很多实体是不是组成这个事件必要元素，以及在事件里扮演什么角色。这个例子中quit触发的是离职的事件，那么就要判断所提及一些实体，比如Wednesday、Barry Diller这些实体，在离职事件里到底扮演什么样的角色，比如说Barry Diller是离职事件的person，而person是role的关系。

在实际处理过程中，其实就是通过判断实体和触发词在句子中是不是具有某种关系，这有点像我们在做实体关系抽取时候的任务，判断一个实体和另外一个实体之间的关系，而事件抽取中判断实体和触发词的关系。通过一系列的判别之后，最终可以把这句话转变成结构化的形式，如同上图的表格所示。

抽取事件的下一步是要判断出两个事件之间是不是具有某种关系，举个例子来说这句话里有两个事件，一个是地震，一个是海啸，我们任务是判断出这两个事件在这句话里主要扮演是什么样的语义关系。例如在这个例子中，地震是海啸的原因。

现在对于事件的关系定义还并不是特别完全，已知有因果关系、时序关系、子副类的关系等，大部分事件都是在做因果关系的判别。

下面刘康研究员介绍了在实际工作中发现的一些问题。最大问题是低资源环境下会遇到各种各样的困难。第一个困难是不管是事件抽取还是事件关系发现，本质上是自然语言处理任务，可以看成分类任务、序列标注任务，但是要做这些事情的话，都需要抽取一些有效特征。虽然现在有很多深度学习模型能够帮助我们自动学习这些特征，但是根据具体任务，如果事先能够给它一些事先抽取结果提示的话，能够帮助深度学习模型学到更好的特征表示，比如事先从文本中把实体抽取出来、事先进行分词、事先识别词性等等相关处理。

而当在低资源特别是小语种条件下，甚至没有充足工具能够处理出、抽取出相关特征，比如说经常用Stanford CoreNLP，最多只能支持50种语言，当想要处理非洲语言甚至我们国家少数民族语言的时候，其实就很难用公开工具做这样的事情。

另外，低资源常常需要大量训练数据帮助训练当前模型。左下图是ACE给事件抽取评测数据集，总共有20多种数据类型，数据总共有6千多个文档，而且数据分布极其不平衡，很多事件类型只有2—3个标注样本。因此一个巨大挑战是对于某种事件类型或者某种事件关系，怎么获取充足训练数据。

下面刘康研究员详细介绍了他们团队最近刚刚发表的三个工作。第一个工作是从文本中自动抽取一些知识，而不需要用任何工具。另外两个是通过跨语言数据进行扩充训练数据，以及应用知识库的数据来扩充训练数据。

第一个工作围绕着事件抽取，事件抽取过程中怎么学习文本中所表达知识信息，而不需要任何标注。我们看一些例子，这是作为事件类型识别任务，我们在识别一个事件过程中，上下文中知识信息对于判断当前事件类型是非常有帮助的。比如说对于第一句话和第二句话，我们看到事件触发词都是release，同一个词却触发了不同类型的事件，第一release是触发了Transfer—Money这么一个事件，而第二个release触发释放某个人的事件。

对于第一句话，如果事先知道上下文实体类型，可以帮助我们判断它就是Transfer—Money的事件。我们知道European Unit欧盟，它是organization，20 million指的是一个数字，指的是2000万欧元。我们知道一个机构release一些数字的时候，多半情况下说明是Transfer—Money这么一个事件。对于第二句话，我们知道Anwar是一个person，April 14是一个day，某一个人在某一个时间release的话应该是指释放的时间。

因此，实体类型对我们判断事件类型是非常有帮助的。那么我们怎么获得实体类型呢？我们能不能用NER工具自动文本中跑一遍，把实体类型自动识别出来，再把识别出来结果作为特征加到后面判别器里，进而判别release是什么事件类型呢？

这样做问题是第一要有靠谱的实体识别工具，第二任何实体识别都是有错误的，都不是100%准确，那么怎么规避识别错误对于后续判别事件类型的影响，这是两个核心问题。

我们给出了一种叫做老师和学生的模型，基于模仿模型的策略，是什么思想呢？对于这一句话来说，The EU is set to release 20 million euros tolraq中，teacher模型里自动把实体类型给标注出来，假设已经知道UE是organization，20 million是一个数字，我们先经过一个knowledge Annotation把这些东西全部标出来，我们用Teacher Encoder直接学到Feature vector，这里包含了当前这句话语义表示，同时也支撑了里面标注的信息。

第二Student Encoder，对这句话我们不做任何的knowledge Annotation，我们就需要它的语义表示，我们也得到了Feature vector，大家注意这时候Student Encoder里头，只是从这句话里写到这个表示，而没有进行任何knowledge Annotation。我们尽量逼近两个Feature vector，最终如果这两个Feature vector能逼近的话，最后逼近结果就是Student Encoder具备了Knowledge Annotation的性能，虽然是直接学习表示，也能够把里面实体信息自动学出来。