科大讯飞2020完整事件抽取系统(bert+数据集)

最新推荐文章于 2024-06-26 17:36:17 发布

datayx

最新推荐文章于 2024-06-26 17:36:17 发布

阅读量8.6k

点赞数 8

文章标签：图像识别人工智能计算机视觉自然语言处理 ai

原文链接：https://loveai.tech/

版权

向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程公众号：datayx

事件抽取将非结构化文本中的事件信息展现为结构化形式，在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中，由于文本中可能存在句式复杂，主被动转换，多事件主客体共享等难点，因此“事件抽取”是一项极具挑战的抽取任务。

本事任务旨在从通用新闻文本中抽取事件触发词、事件论元以及事件属性。在传统的事件定义中，事件由事件触发词( Trigger) 和描述事件结构的元素 (Argument)构成。事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等，是表达事件重要信息的载体。

事件属性包括事件极性（Polarity）、时态(Tense)，是衡量事件是否真实发生的重要依据。通过极性，事件分为肯定、否定、可能事件。通过时态，事件分为过去发生的事件、现在正在发生的事件、将要发生的事件以及其他无法确定时态的事件。

本赛事任务一为初赛任务，任务二为复赛任务，在任务一的基础上增加了事件属性识别。为了模拟真实场景，数据中包含了非实际发生的事件。

任务一：事件触发词及论元抽取

该任务旨在从文本中抽取标识事件发生的触发词和论元，触发词往往为动词和名词。触发词对应的事件论元，主要为主体、客体、时间、地点，其中主体为必备论元。

示例 1：

文本：北京时间 3 月 27 日晚上 7 点 15 分，英国首相鲍里斯约翰逊确诊感染了新冠肺炎。

任务二：事件属性抽取

该任务旨在从文本中抽取表达事件发生状态的属性，包括极性、时态。极性分为：肯定、否

定、可能；时态分为：过去、现在、将来、其他。

示例 1：

文本：中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称，经向俄有关强力部门了解，目前

在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。

抽取结果：

示例 4：

文本：看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。

抽取结果：

事件抽取系统，包含触发词（trigger），事件论元（role），事件属性（attribution）的抽取。基于 pytorch 的 pipeline 解决方案。

主要思路

将任务分割为触发词抽取，论元抽取，属性抽取。具体而言是论元和属性的抽取结果依赖于触发词，因此只有一步误差传播。因 time loc 并非每个句子中都存在，并且分布较为稀疏，因此将 time & loc 与 sub & obj 的抽取分开（role1 提取 sub & obj；role2 提取 time & loc）

模型先进行触发词提取，由于复赛数据集的特殊性，模型限制抽取的事件仅有一个，如果抽取出多个触发词，选择 logits 最大的 trigger 作为该句子的触发词，如果没有抽取触发词，筛选整个句子的 logits，取 argmax 来获取触发词；

然后根据触发词抽取模型抽取的触发词，分别输入到 role1 & role2 & attribution 模型中，进行后序的论元提取和属性分类；四种模型都是基于 Roberta-wwm 进行实验，加入了不同的特征。

最后将识别的结果进行整合，得到提交文件。