将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力。
标签:信息抽取比赛时间:2022/03/30 - 2022/07/31
赛题介绍
信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与方法在通用场景和任务下的抽取性能。
为此,中国科学院软件研究所、百度公司与千言开源数据集项目联合发起业界首个通用信息抽取评测——“CCKS-千言通用信息抽取竞赛”,该比赛是千言多形态信息抽取的全新升级,该比赛已于2022年8月25日结束。
本榜单是“CCKS-千言通用信息抽取竞赛”的常规赛版本,面向NLP开发者长期开放报名和提交,任务设置与该竞赛保持一致:不局限于传统的单任务信息抽取的评测范式,而是将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力,从而满足当下信息抽取领域快速迭代、快速迁移的实际需求,更贴近实际业务应用。
信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中,特定的抽取需求是指抽取任务中的抽取框架,主要由抽取类别(人物名称、公司名称、企业上市事件)及目标结构(实体、关系、事件等)组成。 本任务为中文信息抽取任务,即按照特定的抽取框架S,从给定的一组自由文本X中抽取出所有符合抽取需求的信息结构Y(实体、关系、事件记录等)。对于同一输入文本,不同的抽取框架会抽取不同的信息结构。示例如下:
抽取框架示例1:金融事件抽取
输入文本(Text):
宁波容百新能源科技股份有限公司(简称“容百科技”,证券代码:688005)在科创板上市。
抽取需求(Schema):
事件类型 | 上市 |
---|---|
事件论元1 | 上市时间 |
事件论元2 | 上市板块 |
事件论元3 | 上市企业 |
事件论元4 | 融资金额 |
事件定义:
企业通过证券交易所首次公开向投资者增发股票,以期募集用于企业发展资金的过程。
<上市企业> 于 <上市时间> 在 <上市板块> 上市,一共融资 <融资金额>。
论元定义:
• 上市企业: 是指所发行的股票经过国务院或者国务院授权的证券管理部门批准在证券交易所上市交易的股份有限公司。
• 上市时间: 是指证券管理部门在证券交易所上市交易的时间
• 上市板块: 是指主板、中小板、创业板、其他。
• 融资金额: 是指上市企业通过“上市”这一行为融到的总资本
==========================
示例输出1
信息结构(Structure):
事件类型 | 上市 |
---|---|
上市板块 | 科创板 |
上市企业 | 宁波容百新能源科技股份有限公司 |
抽取框架示例2 冬奥事件抽取
输入文本(Text):
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!
抽取需求(Schema):
事件类型 | 夺冠 |
---|---|
事件论元1 | 夺冠时间 |
事件论元2 | 冠军 |
事件论元3 | 夺冠赛事 |
事件定义:
参赛选手在体育竞赛中夺得第一名。
<冠军> 于 <夺冠时间> 在 <夺冠赛事>获得冠军。
论元定义:
•冠军: 是指在竞赛中获取第一名的参赛选手。
•夺冠时间: 是指参赛选手获得冠军的时间。
•夺冠赛事: 是指参赛选手获得冠军的赛事。
==========================
示例输出2
信息结构(Structure):
事件类型 | 夺冠 |
---|---|
夺冠时间 | 2月8日上午 |
冠军 | 谷爱凌 |
夺冠赛事 | 北京冬奥会自由式滑雪女子大跳台决赛 |
注:本例与实例3虽然是相同的文本输入,但是由于抽取需求不同,抽取的目标结构也不同。
抽取框架示例3 人物信息
输入文本(Text):
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!
抽取需求(Schema):
关系类型 | 国籍 |
---|---|
关系论元1 | 主体 |
关系论元2 | 客体 |
关系类型 | 地理相邻 |
---|---|
关系论元1 | 主体 |
关系论元2 | 客体 |
============================================
示例输出3
信息结构(Structure):
关系类型 | 国籍 |
---|---|
主体 | 谷爱凌 |
客体 | 中国 |
注:本例中包含两个抽取需求,但是文本中只包含“国籍”关系描述,故只抽取出包含“国籍”关系的信息结果。
抽取框架示例4 对话情感抽取
输入文本(Text):
A:我昨晚又看了肖申克的救赎,简直百看不厌
B:是的,它是几代人的经典。
A:不过,这部剧的主演,我觉得蒂姆罗宾斯的演技不算那么出众。
抽取需求(Schema):
情感类型 | 正向情感 |
---|---|
情感论元1 | 意见对象 |
情感论元2 | 情感表达 |
情感类型 | 负向情感 |
---|---|
情感论元1 | 意见对象 |
情感论元2 | 情感表达 |
============================================
示例输出4
信息结构(Structure):
情感类型 | 正向情感 |
---|---|
意见对象 | 肖申克的救赎 |
情感表达 | 百看不厌 |
情感类型 | 正向情感 |
---|---|
意见对象 | 肖申克的救赎 |
情感表达 | 几代人的经典 |
情感类型 | 负向情感 |
---|---|
意见对象 | 蒂姆罗宾斯 |
情感表达 | 不算那么出众 |
数据简介
本评测的数据及抽取框架主要来自于千言数据平台和百度通用信息抽取的应用案例。本次评测构建了多领域多场景下的多种抽取框架,包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务,以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。 参赛者可以通过已有模型以及千言平台、AI Studio平台上公开可获得的数据进行快速数据构建和现有模型迁移。
同时本评测鼓励参赛者使用公开可获取的数据集和知识库数据通过半监督、远距离监督等形式构建训练数据。以往其他赛事的竞赛数据,需要报名审核而无法再次获取的数据不纳入公开可获取范畴。获奖队伍的评审材料中需提供数据来源。
数据组成主要包含两个部分:
- 6个Seen Schema(已知框架): 主要来自千言平台与AI Studio平台上可获取的数据,参赛者可根据平台数据构建模型,该赛道主要评测现有技术基于标记数据构建模型的能力。
- 4个Unseen Schema(未知框架):主要来自百度信息抽取的实际案例,评测方仅提供少量的验证数据,用与参赛者进行抽取需求确认和模型验证,该赛道主要评测现有技术面向新的抽取需求的迁移能力。
本次评测数据分为三次发布:
Seen Schema定义文件、验证数据。 该部分数据主要来源于千言数据集平台中的各类数据。每一个Schema 包含结构和类型定义,并提供少量验证数据。验证数据用于帮助参赛选手确认标注规范(例如标注边界等)。
Unseen Schema定义和少量对应的验证数据。 每一个Schema 包含结构和类型定义,并提供少量验证数据。验证数据用于帮助参赛选手确认标注规范(例如标注边界等)。
测试集数据(最终测试集)。 参赛者需要对纯文本数据及对应的抽取需求(同时包含seen和unseen)进行信息抽取,最后提交抽取结果。
数据说明
抽取框架定义
抽取框架定义文件为YAML格式,包含了不同任务的抽取形式和标签定义。每个抽取框架文件包含实体、关系和事件等定义信息。
事件:
夺冠:
定义: 在体育竞技比赛中获得第一名。
格式: <冠军> 于 <时间> 在 <夺冠赛事> 取得冠军。
参数:
时间: 是指夺冠赛事发生时间。
冠军: 是指体育竞技比赛中的第一名。
夺冠赛事: 是指一项具体的体育竞技项目。
训练集文件
不同抽取框架的训练集文件为一个jsonlines文件,文件中的一行是一个训练实例,包含输入文本X,抽取框架S(schema)和目标结构Y(entity、relation、event)。数据样例如下:
金融事件抽取任务
{
"text": "宁波容百新能源科技股份有限公司(简称“容百科技”,证券代码:688005)在科创板上市,实控人白厚善的资本术也浮出水面,也引来各路资本加持。",
"entity": [],
"relation": [],
"event": [
{
"type": "上市",
"text": "上市",
"args": [
{"type": "上市板块", "offset": [38, 39, 40], "text": "科创板"},
{"type": "上市企业", "offset": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
"text": "宁波容百新能源科技股份有限公司"}
]
}
],
"schema": "金融信息"
}
体育竞赛事件抽取任务
{
"text": "2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!",
"entity": [],
"relation": [],
"event": [
{
"type": "夺冠",
"text": "金牌",
"args": [
{"type": "夺冠时间", "offset": [0, 1, 2, 3, 4, 5], "text": "2月8日上午"},
{"type": "夺冠赛事", "offset": [6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22],
"text": "北京冬奥会自由式滑雪女子大跳台决赛"},
{"type": "冠军", "offset": [24, 25, 26, 27, 28, 29, 30], "text": "中国选手谷爱凌"}
]
}
],
"schema": "体育竞赛"
}
人生信息抽取
{
"text": "2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!",
"entity": [],
"relation": [
{
"type": "国籍",
"args": [
{"type": "地理位置", "offset": [24, 25], "text": "中国"},
{"type": "人物", "offset": [28, 29, 30], "text": "谷爱凌"}
]
}
],
"event": [],
"schema": "人生信息"
}
影视情感抽取
{
"text": "A: 我昨晚又看了肖申克的救赎,简直百看不厌\nB: 是的,它是几代人的经典。\nA: 不过,这部剧的主演,我觉得蒂姆罗宾斯的演技不算那么出众。",
"entity": [
{"type": "意见对象", "offset": [9, 10, 11, 12, 13, 14], "text": "肖申克的救赎"},
{"type": "情感表达", "offset": [18, 19, 20, 21], "text": "百看不厌"},
{"type": "情感表达", "offset": [31, 32, 33, 34, 35, 36], "text": "几代人的经典"},
{"type": "意见对象", "offset": [55, 56, 57, 58, 59], "text": "蒂姆罗宾斯"},
{"type": "情感表达", "offset": [63, 64, 65, 66, 67, 68], "text": "不算那么出众"}
],
"relation": [{
"type": "正向",
"args": [
{"type": "意见对象", "offset": [9, 10, 11, 12, 13, 14], "text": "肖申克的救赎"},
{"type": "情感表达", "offset": [18, 19, 20, 21], "text": "百看不厌"}
]
},
{
"type": "正向",
"args": [
{"type": "意见对象", "offset": [9, 10, 11, 12, 13, 14], "text": "肖申克的救赎"},
{"type": "情感表达", "offset": [31, 32, 33, 34, 35, 36], "text": "几代人的经典"}
]
},
{
"type": "负向",
"args": [
{"type": "意见对象", "offset": [55, 56, 57, 58, 59], "text": "蒂姆罗宾斯"},
{"type": "情感表达", "offset": [63, 64, 65, 66, 67, 68], "text": "不算那么出众"}
]
}],
"event": [],
"schema": "影视情感"
}
本例中使用实体、关系结构来阐述结构化情感分析样例,
训练文件中的每个实例包含的常用字段为:
- text:输入文本
- schema:对应的抽取框架
- entity:实体标注结果
- relation:关系标注结果
- event:事件标注结果
测试集文件
测试集文件为一个jsonlines文件,文件中的一行是一个测试实例,包含输入文件X,抽取框架S。数据样例如下:
测试样例1:
{
"text": "2月10日,陈巍夺得北京冬奥会男子单人滑的冠军,日本队的键山优真和宇野昌磨分获银牌和铜牌。",
"schema": "体育竞赛",
"id": "3411976a-af61-11ec-b786-00155d5ab327"
}
测试样例2:
{
"text": "A:李蔚然导演的电影你看过吗\nB:好像没有看过他的电影\nA:他的决战刹马镇很不错的,你可以看看",
"schema": "影视情感",
"id": "0f4b1a8c-ced6-4db5-a66d-83fc36ed95f9"
}
测试文件中的每个实例包含的常用字段为:
- text:输入文本
- schema:对应的抽取框架
- id:抽取实例id
提交格式
模型预测结果以编码为UTF-8的jsonlines的文件格式提交到AI Studio,平台进行在线评分,实时排名。文件中一行为一个json对象,是一个实例的预测结果,样例如下所示。选手需针对所有测试样例提交结果,若无输出结果则目标结构(entity、relation、event)列表为空。
{
"id": "3411976a-af61-11ec-b786-00155d5ab327",
"entity": [],
"relation": [],
"event": [{
"type": "夺冠",
"text": "金牌",
"args": [
{"type": "夺冠时间", "text": "2月10日"},
{"type": "夺冠赛事", "text": "北京冬奥会男子单人滑"},
{"type": "冠军", "text": "陈巍"}
]
}]
}
赛事基线
本次评测将提供基于飞桨框架PaddlePaddle的开源基线系统,提供丰富的高层API,从开发、训练到预测部署提供优质的整体体验。
推荐您参照基线方案,进行二次开发、模型调优和方案创新。
GitHub 基线系统:PaddleNLP/examples/information_extraction/DuUIE at develop · PaddlePaddle/PaddleNLP · GitHub
同时,我们在AI studio上提供了免费的算力支持、编程环境和基线系统,选手可『一键运行』跑出结果。
Aistudio基线:CCKS2022通用信息抽取基线模型 - 飞桨AI Studio
评价指标
评测内容
本次大赛基于抽取系统从输入序列中抽取的输出记录(Record)进行评价。我们将不同范式(schema)的抽取任务统一表示成不同的多元组,并对集合去重后的结果进行评价。评测脚本自动将提交格式中的输出结果转化为多元组并进行评价,评价形式可能包括二元组与三元组。
多元组中所涉及的基本元素包括:
- 文本块抽取结果span(以字符串形式体现,不需要对应回offset)
- 表示类型的标签(例如:实体类型、事件类型)
- 表示关联关系的标签(例如:关系类型、事件论元类型)。
具体来说,评价的多元组可能包含有:
- (Span,类型标签):代表性的抽取任务包括有实体抽取任务(实体提及span,实体类型)、事件触发词识别任务(触发词span,事件类型)
- (关联关系标签,Span1,Span2):代表性的抽取任务包括有关系抽取任务(关系类型, 主体span, 客体span)、情感三元组(情感极性,意见对象span,情感表达span)
- (类型标签,关联关系标签,Span):代表性的抽取任务包括有事件论元识别(事件类型,论元角色,论元span)
请注意,本次评测主要关注于信息的抽取,而非标注。因此,对于同一段文本中出现多次的相同信息,我们将去重后进行评价。例如,对于同一段输入文本中出现有多次相同的特定实体,模型仅需要输出一个二元组即可,输出多个相同的二元组,评价脚本将自动去重。
评测指标
对于每个任务的正确预测(TP),正确匹配标准答案中的多元组,即视为:TP += 1。
总体打分
大赛将给出一个总体的多元组打分以及每个领域的schema下的评测结果打分。所有打分评价指标使用微平均Micro-F1。
对于Seen Schema而言,每个领域我们考察的抽取任务如下:
- 人生信息:抽取(关系类型, 主体span, 客体span)关系三元组、抽取(实体提及span,实体类型)实体二元组
- 机构信息:抽取(关系类型, 主体span, 客体span)关系三元组、抽取(实体提及span,实体类型)实体二元组
- 金融信息:抽取(事件类型,论元角色,论元span)事件论元三元组
- 体育竞赛:抽取(事件类型,论元角色,论元span)事件论元三元组
- 影视情感:抽取(情感极性,意见对象span,情感表达span)情感三元组
- 灾害意外:抽取(事件类型,论元角色,论元span)事件论元三元组
对于Unseen Schema而言,每个领域我们考察的抽取任务如下:
- 金融舆情:抽取(事件类型,论元角色,论元span)事件论元三元组
- 金融监管:抽取(关系类型, 主体span, 客体span)关系三元组
- 医患对话:抽取(关系类型, 主体span, 客体span)关系三元组、抽取(实体提及span,实体类型)实体二元组
- 流调信息:抽取(事件类型,论元角色,论元span)事件论元三元组
参赛对象及要求
参赛对象:本次竞赛面向全社会开放,不限年龄、身份、国籍,相关领域的个人、高等院校、科研机构、企业单位、初创团队等均可报名参赛。大赛主办单位中有机会提前接触赛题和数据的人员不得参加比赛,其他员工可以参与比赛排名,但不可领取任何奖项。
参赛要求:支持以个人或团队形式参赛,每个参赛队伍人数最多不超过5人,允许跨单位自由组队,但每人只能参加一支队伍。
注意事项
参赛选手需确保注册时提交信息准确有效,所有的比赛资格及奖金支付均以提交信息为准;
参赛选手报名后可在“我的团队”页面组队。每支队伍需指定一名队长,队伍成员总数最多不超过5人;报名截止日期之后不允许更改队伍成员名单,请谨慎选择队员组队;
队伍名的设定不得违反中国法律法规或社会公序良俗,且参赛队伍命名中不可出现“百度官方”,“飞桨官方”,“paddle官方”,“官方baseline”等字样。若命名违规的队伍在收到比赛主办方警告后仍未修改队伍名称,比赛主办方有权解散该队伍 ;
每名参赛选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消相关队伍的参赛资格;
参赛队伍可在参赛期间随时上传测试集的预测结果,每天最多评测3次,比赛管理系统会实时更新各队伍的当前最高成绩与当前最新榜单排名情况;
评测地址:CCKS2022通用信息抽取竞赛 - 飞桨AI Studio
基线模型:PaddleNLP/examples/information_extraction/DuUIE at develop · PaddlePaddle/PaddleNLP · GitHub
PaddleNLP/examples/information_extraction/DuUIE at develop · PaddlePaddle/PaddleNLP · GitHub
CCKS2022通用信息抽取竞赛 - 飞桨AI Studio
直播预告 | CCKS2022-千言通用信息抽取竞赛获奖方案分享
【信息抽取】基于prompt的通用信息抽取方案——千言数据集_哔哩哔哩_bilibili