千言数据集赛题介绍

最新推荐文章于 2024-05-22 09:58:54 发布

big_matster

最新推荐文章于 2024-05-22 09:58:54 发布

阅读量630

点赞数

文章标签：人工智能大数据知识图谱

本文链接：https://blog.csdn.net/kuxingseng123/article/details/129420321

版权

赛题题目

通用信息抽取任务评测

将多种不同的信息抽取任务用统一的通用框架进行描述，着重考察相关技术方面在面对新的、未知的信息抽取任务与范式时的适应和迁移能力。

赛题介绍

信息抽取旨在将非结构化文本中的信息进行结构化，是自然语言处理的基础技术和重要研究领域。一直受到学术界和工业界的广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务。难以评估相关技术与方法在通用场景和任务下的抽取性能。
为此，中国科学院软件研究所，百度公司与千言开源数据集项目联合发起业界首个通用信息抽取评测。千言通用信息抽取竞赛
本榜单是千言通用信息抽取的常规赛版本。面对NLP开发者长期报名和提交。不设置截止提交时间，任务设置与该竞赛保持一致**：不局限于传统的单任务信息抽取的评测范式，而是将多种不同的信息抽取任务用统一的通用框架进行描述**，着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力，从而满足当下信息抽取领域快速迭代、快速迁移的实际需求，更贴近实际业务应用。
————————————————————————
信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中，特定的抽取需求是指抽取任务中的抽取框架，抽要由抽取类别（人物名称、公司名称、企业上市事件）及目标结构（实体、关系、事件等）组成。本任务为中文信息抽取任务，即按照特定的抽取框架 $s$ ,从给定的一组自由文本 $x$ 中，抽取出所有符合抽取需求的信息结构 $Y$ .(实体、关系、事件记录等）对于同一输入文本，不同的抽取框架会抽取不同的信息结构，如下：

抽取框架示例：金融事件抽取

输入文本text

宁波容百新能源科技股份有限公司(简称“容百科技”，证券代码：688005)在科创板上市。

抽取需求

在这里插入图片描述

事件定义

企业通过证券交易所首次公开向投资者增发股票，以期募集用于企业发展资金的过程。
<上市企业> 于 <上市时间> 在 <上市板块> 上市，一共融资 <融资金额>。

论元定义

上市企业：是指所发行的股票经过国务院或者国务院授权的证券管理部门批准在证券交易所上市交易的股份有限公司。
上市时间：指证券管理部门在证券交易所上市交易的时间
上市板块：是指主板、中小板、创业板、其他。
融资金额：是指上市企业通过“上市”这一行为融到的总资本
——————————————————————

抽取框架示例2 东奥事件抽取

输入文本text

2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！

抽取需求

在这里插入图片描述

抽取框架3人物信息

输入文本

2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！

抽取需求

在这里插入图片描述

示例输出3

在这里插入图片描述

示例框架4：对话情感抽取

在这里插入图片描述

数据集介绍

本评测的数据及抽取框架主要来自于千言数据平台和百度通用信息抽取的应用案例，本文评测构建了多领域多场景下的多种抽取框架，包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务。以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。参赛者可以通过已有模型以及千言平台，公开课获得的数据集进行快速数据构建和现有模型的迁移。
同时评测鼓励参赛者使用公开的可获取的数据集和知识库数据通过半监督、远距离监督等形式构建训练数据。
数据集组成主要包含两个部分：

6个Seen Schema（已知框架）
- 主要来自千言平台与AI Studio平台上可获取的数据，参赛者可根据平台数据构建模型，该赛道主要评测现有技术基于标记数据构建模型的能力。
4个Unseen Schema（未知框架）
- 主要来自百度数据的抽取案例，评测方仅提供少量的验证数据，用与参赛者进行抽取需求确认和模型验证，该赛道主要评测现有技术面向新的抽取需求的迁移能力
  本次评测数据分为三次发布：
Seen Schema定义文件、验证数据。该部分数据主要来源于千言数据集平台中的各类数据。每一个Schema 包含结构和类型定义，并提供少量验证数据。验证数据用于帮助参赛选手确认标注规范（例如标注边界等）。
Unseen Schema定义和少量对应的验证数据。每一个Schema 包**含结构和类型定义，并提供少量验证数据。**验证数据用于帮助参赛选手确认标注规范（例如标注边界等）。
测试集数据(最终测试集)。参赛者需要对纯文本数据及对应的抽取需求（同时包含seen和unseen）进行信息抽取，最后提交抽取结果。

数据说明

抽取框架定义

抽取框架定义文件为YAML格式，包含了不同任务的抽取形式和标签定义。每个抽取框架文件包含实体、关系和事件等定义信息。

在这里插入图片描述

训练集文件

不同抽取框架的训练集文件为一个jsonlines文件，文件中的一行是一个训练实例，包含输入文本X，抽取框架S（schema）和目标结构Y（entity、relation、event）。数据样例如下：

{
“text”: “宁波容百新能源科技股份有限公司(简称“容百科技”，证券代码：688005)在科创板上市，实控人白厚善的资本术也浮出水面，也引来各路资本加持。”,
“entity”: [],
“relation”: [],
“event”: [
{
“type”: “上市”,
“text”: “上市”,
“args”: [
{“type”: “上市板块”, “offset”: [38, 39, 40], “text”: “科创板”},
{“type”: “上市企业”, “offset”: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
“text”: “宁波容百新能源科技股份有限公司”}
]
}
],
“schema”: “金融信息”
}

训练文件中每个实例包含的常用字段为

text 输入文本
scheme：对应的抽取框架
entity 实体标注结果
relation 关系标注结果
event事件标注结果

测试集文件

在这里插入图片描述
测试文件中每个实例包含的常用字段

text 输入文本
scheme：对应的抽取框架
id 抽取实例id

提交格式

模型预测结果以编码为UTF-8的jsonlines的文件格式提交到AI Studio，平台进行在线评分，实时排名。文件中一行为一个json对象，是一个实例的预测结果，样例如下所示。选手需针对所有测试样例提交结果，若无输出结果则目标结构（entity、relation、event）列表为空。

评测内容

本次大赛基于抽取系统从输入序列中抽取的输出记录进行评价。我们将不同范式的抽取任务统一表示成不同的多元组，并对集合去重的结果进行评价，评测脚本自动将提交格式中的输出结果转化为多元组并进行评价，评价形式可能包括二元组与三元组。

多元组中所涉及的基本元素包括：

文本块抽取结果span,（以字符串形式出现，不需要对应的offset)
表示类型的标签（例如：实体类型、事件类型）
表示关联关系的标签（例如：关系类型、事件论元类型）
具体来讲，评测的多元组具体包含：
（Span，类型标签）：代表性的抽取任务包括有实体抽取任务（实体提及span，实体类型）、事件触发词识别任务（触发词span，事件类型）
（关联关系标签，Span1，Span2）：代表性的抽取任务包括有关系抽取任务(关系类型, 主体span, 客体span）、情感三元组（情感极性，意见对象span，情感表达span）
（类型标签，关联关系标签，Span）：代表性的抽取任务包括有事件论元识别（事件类型，论元角色，论元span）
请注意，本次评测主要关注于信息的抽取，而非标注。因此，对于同一段文本中出现多次的相同信息，我们将去重后进行评价。例如，对于同一段输入文本中出现有多次相同的特定实体，模型仅需要输出一个二元组即可，输出多个相同的二元组，评价脚本将自动去重。