提示:任务三包含两个子任务,本文主要关注第二个子任务
面向中文电子病历的医疗事件抽取
任务介绍
医疗事件抽取:
本任务为中文病历医疗事件抽取任务,即给定主实体为肿瘤的电子病历文本数据,定义肿瘤事件的若干属性,如肿瘤大小,肿瘤原发部位等,识别并抽取事件及属性,进行文本结构化。
本任务提供少量标注数据、大量非标注数据集及词表,旨在训练数据有限的情况下,利用非标注文本和半监督等方法提升模型性能。更接近真实世界的场景。
事件模板定义:
事件主实体:肿瘤
属性1:原发部位【某种疾病最先发生于的组织或器官】
属性2:病灶大小【原发部位大小】
属性3:转移部位【某种疾病从最先发生的组织或器官转移到的其他组织或器官】
每个文本的一个属性可能出现0个或多个属性实体,比如多个原发部位。
示例:
数据示例:
原文:右肺癌化疗后,对比2016-11-29CT: 右上肺病变较前范围稍缩小,周边少许炎症较前稍减少。 两肺散在小结节,大致同前。 左侧锁骨下区、纵隔多发淋巴结,考虑转移,较前稍缩小。 肝囊肿。 左肾小囊肿。右肺癌化疗后,对比2016-11-29CT: 右肺上叶见不规则结节状、片状病灶,边界不清,最大层面大小约12mm×8mm,边缘呈分叶状,增强扫描不均匀强化,紧贴斜裂胸膜,部分范围较前略缩小,右上肺见少许斑片状稍高密度影,边界不清,较前明显减少。左下肺(se8,im96)、左上肺(se8,im221)及右下肺(se8,im104)散在数个小类结节,边界清,大者直径3mm,大致同前。 右肺上叶前内基底段支气管变窄,基底段支气管分支管壁增厚,气管及其余支气管分支通畅。 左侧锁骨下区、两下上气管旁、血管前、主动脉弓旁、主肺动脉窗、隆突上见多发淋巴结,部分相互融合,大者短径约5mm,轻度强化,较前稍缩小。 两侧胸腔未见积液,左侧胸膜未见明显增厚。心包未见明显积液。 肝脏形态正常,各叶比例在正常范围以内,其外形轮廓光整,肝内见多个低密度灶,边界清,大者直径约9mm,未见强化。 肝内胆管正常,其内未见结石影,胆囊大小正常,其内未见结石影,胆总管未见扩张,其内未见结石影。肝门区正常。门静脉未见异常。 脾大小正常,密度均匀。胰腺大小、形态正常,密度均匀。 左肾见低密度灶,边界清,大小约4mm×3mm,未见强化。 右肾及两肾下腺未见异常。 膈脚后、腹主动脉旁未见肿大淋巴结。 扫描范围未见骨质破坏征象。
肿瘤原发部位:右肺上叶
原发病灶大小: 12mm×8mm
转移部位:左侧锁骨下区、纵隔多发淋巴结
数据集描述:
本次评测的训练数据有:
1. 1400条标注数据
2. 1300条非标注数据。
3. 863个实体词表
标注数据集统计如下表:
文本 | 肿瘤原发部位 | 原发病灶大小 | 转移部位 | 总数 |
---|---|---|---|---|
训练集 | 1400 | 1209 | 590 | 1013 |
评价指标:
由于每个文本的一个事件属性可能出现多个属性实体,评测指标使用属性实体而非属性来计算准召率,最终使用属性实体的f1值作为评测指标。
评测前三名
名次 | 队名 | 单位 | 队员列表 | 指导老师 | 论文 | F1(%) |
---|---|---|---|---|---|---|
第一名 | dst | 百度知识图谱部 | 戴松泰、黄苹苹 | 王泉 | 基于预训练语言模型的小样本医疗事件抽取 | 76.23 |
第二名 | TMAIL | 腾讯 | 吴贤,葛屾,张昕楠,赵新宇 | 吴贤 | CCKS2020 Medical Event Extraction Based on Named Entity Recognition | 74.57 |
第三名 | LHJB | 国防科技大学 | 纪斌,刘慧君,陈海文,林吴航,张占军,万仟 | 李莎莎 | 一种中文医疗事件的联合抽取方法 | 73.52 |
论文简介
基于预训练语言模型的小样本医疗事件抽取
- 在预训练流程中加入领域适配和任务适配,提升了语言模型对任务文本的建模能力,让语言模型在精调阶段的小样本下有更好的表现;
- 利用回译进行数据增强;
- 将实体词表作为关键特征加入到模型输入,提升模型在小样本条件下对答案的拟合能力。
CCKS2020 Medical Event Extraction Based on Named Entity Recognition
- RoBERTa-BiLSTM-CRF;
- 数据增强:对句子顺序进行随机重新排序;
- 后处理启发式规则(模型集成+后处理)。
一种中文医疗事件的联合抽取方法
- 提出一种中文医疗事件的联合抽取方法;
- 提出一种基于关键信息的全域随机替换的伪数据生成方法。
-
肿瘤原发部位和原发肿瘤大小联合抽取
-
肿瘤转移部位抽取