AI TIME欢迎每一位AI爱好者的加入!
事件检测已经作为人工智能领域的一项基础核心技术,被广泛应用到事件图谱的构建以及文本摘要的生成。事件检测中优质的结构化知识信息,能够指导我们的智能模型具备更深层的事物理解、更精准的任务查询以及一定程度上的逻辑推理能力,从而对海量的信息分析起到至关重要的作用。在第二期AI Time PhD知识图谱专题分享的直播间,清华大学计算机系、知识工程实验室的博士三年级研究生仝美涵,为大家梳理了事件检测任务发展的脉络,并讲解了如何利用模态的互补性以及外部的资源提升事件检测任务的效果,以及对未来发展方向作出了展望。
一、研究背景
事件抽取最早其实是上世纪八十年代由美国国防部发布的任务,当时是为了对恐怖打击做一些信息提取。
其实现有的知识图谱是一个静态知识的存储方式。比如“奥巴马的妻子——米歇尔”中,奥巴马是头实体,关系是配偶,米歇尔是尾实体。
但是事件抽取的结果可以组成一个动态的知识图谱,或者以一个事件为中心的事件图谱。对于“奥巴马的配偶是米歇尔”这件事情,如果我们知道结婚时间,就可以确定他的配偶这个静态知识是何时开始的,之前是什么状态。
事件抽取在其他方向也有很多应用,比如金融领域。我们知道股票的涨跌其实和市面上一些新闻报道有很大关系,比如之前瑞幸爆出造假账之后股价就大跌。如果我们能够从新闻中快速抽取这些事件的话,就可以对股票进行预测。其次是对社交媒体进行监督,比如在爆发了新冠疫情之后,大家面对该事件的心态和状态、以及政府的应对,我们都可以去进行社交舆论的监测。
二、问题的形式化定义
既然事件抽取应用众多,我们来认识下它的具体定义。
这里的事件其实是句子级别的,由两大部分组成:触发词 (trigger) 和元素 (argument) 。Trigger是一个事件指称中最能代表事件发生的词,是决定事件类别的重要特征。Argument是指事件中的参与者,是组成事件的核心部分,它与事件触发词构成了事件的整个框架。
图中辞职事件里,触发词是quit,参与角色是辞职人Barry Diller,他辞职的职位、时间和机构都可以抽取出来。
事件检测 (event detection) 只识别事件触发词,而事件抽取 (event extraction) 也做参与角色的抽取。
事件抽取和关系抽取的关系:
关系抽取有三个参与角色,头实体、关系和尾实体。而事件抽取是由一个触发词以及多个事件角色(event role)组成的。
三、数据集以及相关竞赛
事件抽取数据集中比较出名的有以下三个:
除了在研究界比较通用的这些benchmark以外,其实在生物方面也有一些具体领域数据集的构建:
以下是今年一些事件抽取的竞赛:
四、事件抽取的一些方法