PubMed 200k RCT数据集:医学文献摘要句子分类的大规模数据集

PubMed 200k RCT数据集简介

PubMed 200k RCT是由Franck Dernoncourt和Ji Young Lee于2017年发布的一个大规模医学文献摘要数据集。该数据集源自PubMed数据库,专门用于连续句子分类任务,具有以下特点:

  • 包含约20万篇随机对照试验(RCT)的摘要,总计230万个句子
  • 每个摘要中的每个句子都被标注了其在摘要中的角色,包括背景、目标、方法、结果和结论5个类别
  • 提供了两个版本:完整版(PubMed 200k RCT)和数字替换为@符号的版本
  • 同时提供了一个较小的子集(PubMed 20k RCT),包含2万篇摘要

该数据集的发布有两个主要目的:

  1. 为短文本序列分类任务提供一个大规模的高质量数据集,以推动相关算法的发展。
  2. 从应用角度来看,帮助研究人员开发更好的工具,以提高文献阅读效率,尤其是在医学等摘要较长的领域。

数据集详细信息

PubMed 200k RCT数据集的主要特征如下:

  • 规模: 约20万篇RCT摘要,230万个句子
  • 标注: 每个句子标注为5个类别之一(背景、目标、方法、结果、结论)
  • 格式: 提供原始版本和数字替换版本
  • 子集: 包含PubMed 20k RCT小规模子集
  • 来源: 基于2016年版MEDLINE/PubMed基线数据库构建

数据集文件组织如下:

PubMed_200k_RCT/
  ├── train.7z       # 训练集(压缩文件)
  ├── dev.txt        # 开发集
  └── test.txt       # 测试集

PubMed_200k_RCT_numbers_replaced_with_at_sign/
  ├── tr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值