基于bert预训练模型和半指针半标注结构的三元组抽取

本文介绍了在2019年百度竞赛中的三元组抽取任务,任务要求从输入句子中抽取出(s, p, o)形式的三元组。针对样本特点,如多对实体关系,设计了基于BERT的模型,采用半指针半标注方法进行实体和关系预测。模型训练中,使用了二分类交叉熵损失函数和AdamW优化器,并在验证集上进行了阈值调优。最终,验证集上的F1分数达到0.54,但结果并不理想。" 111726327,10296642,有向图强连通分量分析及POJ 1236解题报告,"['图论', '算法', '网络x']
摘要由CSDN通过智能技术生成
任务介绍:

该任务来源于2019年百度举办的一个竞赛"2019语言与智能技术竞赛",其实它是一个信息抽取的任务,更精确地说是“三元组”抽取任务,示例数据如下:

{
   
        "text": "杜秉离 男,1948年8月生,河南商水县巴村镇娄庄人",
        "spo_list": [
            [
                "杜秉离",
                "出生日期",
                "1948年8月"
            ],
            [
                "杜秉离",
                "出生地",
                "河南商水县巴村镇娄庄"
            ]
        ]
    }

就是输入一句话,输出这句话所包含的所有三元组。所谓三元组即(s, p, o)形式,s指的是subject,即主实体, 是输入句子的一个片段,o指的是object,即客实体, 也是输入句子的一个片段, p指的是predicate, 表示主实体与客实体之间的关系。在该数据集中,p是给定的,一共50种, 比如实例中的"出生日期","出生地"等等。

样本特点

通过肉眼观察,数据样本有以下特点:
(1)单个subject对应多个predicate-object(当然,单个subject对应单个predicate-object也包含在其中),比如:


                
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值