【阿里近100人+花27.1万造的】中文医学数据集 ChineseBLUE 分析

中文医学数据集 ChineseBLUE 分析

 


论文:https://arxiv.org/pdf/2106.08087v5.pdf

链接:https://github.com/alibaba-research/ChineseBLUE

基本介绍

需要注意的是,中文生物医学文本在语言上与英文不同,具有其领域特性,这需要专门为中文设计的评估BioNLP基准测试。

在本研究中,我们专注于中文,旨在填补这一空白并开发第一个中文生物医学语言理解基准测试。

我们收集了真实世界的生物医学数据,并提出了第一个中文生物医学语言理解评估(CBLUE)基准:包括命名实体识别、信息抽取、临床诊断标准化、单句/句对分类等自然语言理解任务的集合,以及一个用于模型评估、比较和分析的在线平台。

为了在这些任务上建立评估标准,我们报告了当前11个预训练中文模型的实验结果,实验结果显示,最先进的神经模型的性能远远低于人类的上限。

使用当前最先进的人工智能(AI)技术开发的神经网络模型的性能,比人类的最佳表现要差很多。

数据集分类

NER(命名实体识别):

  • 命名实体识别旨在识别各种实体,包括疾病,药物,综合症等。
  • 选择从中国电子健康记录中标记的cEHRNER数据集和从中国社区问答中标记的cMedQANER数据集。

PI(释义识别):

  • 复述识别旨在识别两个句子是否表达相同的含义。
  • 我们使用cMedQQ,它由搜索查询对组成。

QNLI(问题自然语言推论):

  • 问题自然语言推论旨在识别答案是否对应于问题答案对中的问题
  • 我们使用cMedQNLI,它由问答对组成。

QA(问题解答):

  • 可以将问题回答近似为根据其相似性对候选答案句子进行排名。
  • 我们为质量检查对分配0,1标签,这将转换为二进制分类问题。
  • 我们使用论文“中医问题答案选择的多尺度注意力交互网络”中发布的

cMedQA,其中包括问题及其答案。

IR(Information Retrieval):

  • 信息检索旨在根据搜索查询来检索大多数相关文档。
  • IR可以视为一项排名任务。
  • 我们使用cMedIR数据集,该数据集由具有多个文档及其相对得分的查询组成。

IC(意图分类):

  • 意图分类旨在为查询分配意图标签,可以将其视为多个标签分类任务。
  • 我们使用cMedIC数据集,该数据集由带有三个意图标签(例如,无意图,弱意图和坚定意图)的查询组成。

TC(文本分类):

  • 文本分类旨在为句子分配多个标签。
  • 我们使用cMedTC数据集,该数据集由带有多个标签的生物医学文本组成。

Symptom Diagnosis症状诊断:

  • 在自然语言处理中,症状诊断是一个具有挑战性但意义深远的问题。
  • 我们使用论文“通过全局注意力和症状图增强对话症状诊断”发布的CMDD数据集。

比如:
在这里插入图片描述
dev.json 是原始数据,dev.txt 是清洗后的数据。

disease(疾病):口腔溃疡、感冒、癫痫、鼻炎、三叉神经痛

symptom(症状):红肿、腰酸、神经痛、疼痛、出血

body(部位):嘴、胃肠道、关节、神经、血管

treatment(治疗方法):手术、中医、平肝泻火、降压药物、活血化瘀、消炎药

drug(药物):感冒灵颗粒、络活喜、洛汀新、阿莫西林

test(检查项):胃镜、超声、CT、抽血化验、血压

crowd(人群):小孩、儿童、女性、中老年、宝宝、婴儿

time(时间):昨天、三个月、上周三、今年5月份、三个月

physiology(生理机能):怀孕、血压、血糖、脂肪、消化

feature(特征):严重、局部、轻度、剧烈、部分

department(科室):消化科、神经外科、儿科、五官科、骨科
 

再比如:

比如 CMDD 意图识别:

  • 病症:定义,病因,临床表现,相关病症,治疗方法,推荐医院,预防,所属科室,禁忌,传染性,治愈率,严重性
  • 药物:作用,适用症,价钱,药物禁忌,用法,副作用,成分
  • 治疗方案:方法,费用,有效时间,临床意义/检查目的,治疗时间,疗效,恢复时间,正常指标,化验/体检方案,恢复
  • 其他:设备用法,多问,养生,整容,两性,对比,无法确定

构造成本

中文医学命名实体识别数据集(CMeEE):

注释人员

  • 32名注释者参与
    • 2名医学专家
    • 4名生物医学信息领域专家
    • 6名医学博士
    • 22名计算机科学硕士生

时间与费用

  • 注释过程持续了大约3个月(2018年10月至12月)
  • 附加1个月时间进行数据整理
  • 总费用约为50,000人民币

中文医学信息提取数据集(CMeIE)

注释人员

  • 20名注释者参与
    • 2名医学专家
    • 2名生物医学信息领域专家
    • 4名医学博士
    • 14名计算机科学硕士生

时间与费用

  • 注释过程持续了大约4个月(2018年10月至12月)
  • 总费用约为40,000人民币

临床诊断标准化数据集(CHIP-CDN)

注释人员

  • 医疗团队由益度云组成
  • 所有成员都有医学背景和临床资格证书

时间与费用

  • 工作持续了大约2个月
  • 由内部员工完成,估计总成本约为100,000人民币

临床试验标准数据集(CHIP-CTC)

注释人员

  • 3名注释者
    • 1名生物医学研究员
    • 2名生物医学信息领域的博士候选人

时间

  • 注释工作开始于2019年7月并持续了大约1个月
  • 该工作与注释者的研究项目相关,无需支付费用

语义文本相似性数据集(CHIP-STS)

  • 5名本科生
  • 2周
  • 2.5万

KUAKE-查询意图分类数据集(KUAKE-QIC)

  • 6名全职员工
  • 2周
  • 6600元

KUAKE-查询标题相关性数据集(KUAKE-QTR)

  • 9名(7名众包大学生和2名阿里巴巴全职医疗背景员工)
  • 2周
  • 2.8万

KUAKE-查询查询相关性数据集(KUAKE-QQR)

  • 注释费用为2.2万
  • 其他信息未详细说明
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值