基于百度2020语言与智能技术竞赛:事件抽取任务

关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】

文章链接:https://mp.weixin.qq.com/s/4oGMn1eZehGCBrmKJSf1_A


​【前言】

本文旨在基于百度2020事件抽取任务做简单介绍,文中涉及的数据如有需要可私信回复“百度2020事件抽取数据集” 获取。

官网链接:http://lic2020.cipsc.org.cn/

使用MRC方式做事件抽取:https://mp.weixin.qq.com/s/aKB6j42bC1MnWCFIEyjwQQ

 

一、事件抽取

事件抽取 (Event Extraction, EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术。事件抽取是智能风控、智能投研、舆情监控等人工智能应用的重要技术基础,受到学术界和工业界的广泛关注。事件抽取任务涉及事件句抽取、触发词识别、事件类型判别、论元抽取等复杂技术。

 

二、说明

1、事件抽取任务的目标是通过给定目标事件类型和角色类型集合及句子,识别句子中所有目标事件类型的事件,并根据论元角色集合抽取事件所对应的论元。其中目标事件类型(event_type)和论元角色(role)限定了抽取的范围,例如:(event_type:胜负,role:时间,胜者,败者,赛事名称)、(event_type:夺冠,role:夺冠事件,夺冠赛事,冠军)。

2、输入/输出

  • 输入:包含事件信息的一个或多个连续完整句子。

  • 输出:属于预先定义的事件类型、类型角色的论元结果。

  • 举个🌰吧

    输入:

    输出:

 

三 、数据集简介

1、中文事件抽取数据集,包含65个事件类型的17000个具有事件信息的句子(20000个事件)。65个事件类型中不仅包含「结婚、辞职、地震」等传统事件抽取评测中常见的事件类型,还包含了「点赞」等极具时代特征的事件类型,具体的事件类型及对应角色见表1。

2、数据集一共包含约1.7万个具有事件信息的句子,分为1.2万训练集,0.15万验证集和0.35万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前一周发布,将作为最终的竞赛排名的测试数据。

  • train:11958  dev:1498  test1:1489  test2:35000

    train_example

    test_example

    备注

    event_type:事件类型

    trigger:触发词

    trigger_start_index:触发词起始位置

    argument:事件元素

    alias:其他被提及的事件元素

    class:事件类别

 

四、评测方式

最终得分

  • F1综合得分:f1_score = (2 * P * R) / (P + R)

  • P = 预测论元得分总和 / 所有预测论元的数量

  • R = 预测论元得分总和 / 所有人工标注论元的数量

  • 预测论元得分   = 事件类型是否准确 * 论元角色是否准确 * 字级别匹配F1值 (*是相乘)

  • 字级别匹配F1值 = 2 * 字级别匹配P值 * 字级别匹配R值 / (字级别匹配P值 + 字级别匹配R值)

  • 字级别匹配P值  = 预测论元和人工标注论元共有字的数量/ 预测论元字数

  • 字级别匹配R值  = 预测论元和人工标注论元共有字的数量/ 人工标注论元字数

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>