nlp赛事_关系抽取任务

百度2020年提供了5个赛道
事件抽取任务
关系抽取任务
本文内容
关系抽取就是根据SPO三元组标注训练模型,使得模型能够自动识别SPO三种类别

任务目标是在给定的文本句子中,根据预先定义的schema集合,抽取出所有满足 schema 约束的 SPO 三元组。schema 定义了关系 P 以及其对应的主体 S 和客体 O 的类别,根据 O 类型的复杂程度可以划分为以下两种:

  1. 简单 O 值:也就是说 O 是一个单一的文本。例如,「妻子」关系的 schema 定义为:
{
   
    S_TYPE: 人物,
    P: 妻子,
    O_TYPE: {
   
        @value: 人物
	}
}

简单 O 值是最常见关系类型,去年竞赛中所发布的所有 schema 都属于这种类型。为了保持格式统一,简单 O 值类型的 schema 定义通过结构体保存,结构体中只有一个 @value 字段存放真正的 O 值类型。

  1. 复杂 O 值:也就是说 O 是一个结构体,由多个语义明确的文本共同组成,多个文本对应了结构体中的多个槽位(slot)。例如,「饰演」关系中 O 值有两个槽位 @value 和 inWork,分别表示「饰演的角色是什么」以及「在哪部影视作品中发生的饰演关系」,其 schema 定义为:
{
   
    S_TYPE: 娱乐人物,
    P: 饰演,
    O_TYPE: {
   
        @value: 角色
        inWork: 影视作品
    }
} 

在复杂 O 值类型的定义中,@value 槽位可以认为是该关系的默认 O 值槽位,对于该关系不可或缺,其他槽位均可缺省。

输入/输出:

输入:schema约束集合及句子sent
输出: 句子sent中包含的符合给定schema约束的三元组知识Triples

数据简介 Dataset

本次竞赛使用的DuIE2.0数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过21万中文句子及48个已定义好的schema,表1 中展示了DuIE2.0数据集中包含的43个简单知识的schema及对应的例子,表2 中展示了DuIE2.0数据集中包含的5个复杂知识的schema及对应的例子。数据集中的句子来自百度百科、百度贴吧和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前1周发布,并将作为最终的评测排名。`

https://github.com/PaddlePaddle/Research/tree/master/KG/DuIE_Baseline

{
   "object_type": {
   "@value": "学校"}, "predicate": "毕业院校", "subject_type": "人物"}
{
   "object_type": {
   "@value": "人物"}, "predicate": "嘉宾", "subject_type": "电视综艺"}
{
   "object_type": {
   "inWork": "影视作品", "@value": "人物"}, "predicate": "配音", "subject_type": "娱乐人物"}
{
   "object_type": {
   "@value": "歌曲"}, "predicate": "主题曲", "subject_type": "影视作品"}
{
   "object_type": {
   "@value": "人物"}, "predicate": "代言人", "subject_type": "企业/品牌"}
{
   "object_type": {
   "@value": "音乐专辑"}, "predicate": "所属专辑", "subject_type": "歌曲"}
{
   "object_type": {
   "@value": "人物"}, "predicate&#
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值