PubMed 200k RCT数据集:医学文献摘要句子分类的大规模数据集

最新推荐文章于 2025-04-03 22:38:33 发布

原创

最新推荐文章于 2025-04-03 22:38:33 发布 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#分类 #数据挖掘 #人工智能

PubMed 200k RCT数据集简介

PubMed 200k RCT是由Franck Dernoncourt和Ji Young Lee于2017年发布的一个大规模医学文献摘要数据集。该数据集源自PubMed数据库,专门用于连续句子分类任务,具有以下特点:

包含约20万篇随机对照试验(RCT)的摘要,总计230万个句子
每个摘要中的每个句子都被标注了其在摘要中的角色,包括背景、目标、方法、结果和结论5个类别
提供了两个版本:完整版(PubMed 200k RCT)和数字替换为@符号的版本
同时提供了一个较小的子集(PubMed 20k RCT),包含2万篇摘要

该数据集的发布有两个主要目的:

为短文本序列分类任务提供一个大规模的高质量数据集,以推动相关算法的发展。
从应用角度来看,帮助研究人员开发更好的工具,以提高文献阅读效率,尤其是在医学等摘要较长的领域。

数据集详细信息

PubMed 200k RCT数据集的主要特征如下:

规模: 约20万篇RCT摘要,230万个句子
标注: 每个句子标注为5个类别之一(背景、目标、方法、结果、结论)
格式: 提供原始版本和数字替换版本
子集: 包含PubMed 20k RCT小规模子集
来源: 基于2016年版MEDLINE/PubMed基线数据库构建

数据集文件组织如下:

PubMed_200k_RCT/
  ├── train.7z       # 训练集(压缩文件)
  ├── dev.txt        # 开发集
  └── test.txt       # 测试集

PubMed_200k_RCT_numbers_replaced_with

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_56734068

关注关注

25
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

医学文献摘要方面的数据集选取及构造

2201_75499442的博客

05-30

812

有关医学文献摘要的数据集的思考与确立

论文导读 I RAFT：使语言模型适应特定领域的RAG

tupuzhineng的博客

12-03

1353

本文提出的 RAFT 方法为特定领域中的 RAG 任务提供了一种有效的解决方案。通过引入干扰文档和思维链式响应，RAFT 不仅提高了模型的鲁棒性和推理能力，还在多个数据集上展现了出色的性能。未来的研究可以进一步探索 RAFT 在其他领域和任务中的应用，以推动大语言模型在特定领域的实际应用。

参与评论您还未登录，请先登录后发表或查看评论

pubmed-rct：PubMed 200k RCT数据集：用于顺序句子分类的大型数据集

02-03

pubmed-rct：PubMed 200k RCT数据集：用于顺序句子分类的大型数据集

中文医疗文本数据集

qq_38366112的博客

09-07

2080

1.中文医疗对话文本链接：https://pan.baidu.com/s/1muaxSpMQxEZ64U5Hgf6H0g 提取码：38xz 2.面向中文医疗科普知识的内容理解（一）医疗科普知识阅读理解链接：https://pan.baidu.com/s/1d41ExzK2nK9O_dk5tNdVyQ 提取码：a55f 3.面向中文医疗科普知识的内容理解（二）答非所问识别链接：https://pan.baidu.com/s/1vopY8x8n1GX4Vrv-QNZtEA 提取码：2m03 4.第一届智能

医疗诊断文本多分类问题（NLP)（合工大机器学习）

lengyue29的博客

01-29

3453

针对医疗文本多分类问题，分别使用传统机器学习和深度学习进行处理，比较结果

PaddleNLP学习日记(一）CBLUE医疗文本分类

little_spice的博客

11-02

2772

最后来总结一下使用paddlenlp完成医疗文本分类的流程，详细代码请移步医疗文本分类~导包：参考github代码定义指标类别：对于不同的子数据集及任务，使用不同的指标如Accuracy、MultiLabelsMetric、AccuracyAndF1。添加命令行参数：主要用于接受用户从控制台输入的参数。设置随机种子：用于复现训练和测试结果，方便后续进行调试。定义评估方法：传入model、数据加载器、评价指标和损失函数，得到数据集对应的指标。

PubMed 200k RCT数据集：NLP领域大型顺序句子分类资源

资源摘要信息:"PubMed 200k RCT数据集是一项专门针对自然语言处理（NLP）领域，特别是机器学习（ML）算法进行顺序句子分类研究而构建的大型语料库。该数据集的完整名称为'pubmed-rct'，其目的是为研究者提供一个高...

基于深度学习的pubmed文献研究热点与趋势分析

12-30

PubMed 200k RCT 是一个重要的里程碑，由 Franck Dernoncourt 和 Ji Young Lee 发布的数据集不仅规模庞大，而且针对医学文献摘要进行了细致的角色标注，这使得它非常适合用于训练和评估自然语言处理模型[^2]。...

天池数据集 | 精品数据集推荐医疗行业(下)

qq_40309616的博客

01-07

1978

医疗健康研究领域的小伙伴，福利又双叒叕来啦！

英文摘要数据集_摘要集

cunfen6312的博客

07-31

586

英文摘要数据集 摘要集 (Abstract Set) In Java, the AbstractSet class is the part of the Java Collection Framework. The Abstract list is implemented by the collection interface and the Abstract Collection class....

【数据挖掘/机器学习/文本分类】2000~2019年英文文献摘要数据集，16类，每类100篇

03-14

本数据集为2000~2019年大部分英文文献摘要集合的子集，分agriculture、anatomy、business、chemistry、economics、education、geology等十六类。每条数据由五部分组成：序号、分类、文献名称、摘要、期刊名称。注意是英文！！！摘要！！！可用于数据挖掘等工程。具体应用可参考博客：https://blog.csdn.net/erwugumo/article/details/104610584 请使用python进行数据分析。需要更大规模的数据请咨询QQ：2450520622。全部数据集约三百万条。

PubMed完全攻略

10-27

PubMed完全攻略俗话说，喝水不忘掘井人。PubMed是美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)开发的因特网生物医学信息检索系统，位于美国国立卫生研究院（NIH）的平台上。有不少西方人有在饭前祈祷感恩的习惯，不知道我们是否也有必要每次使用PubMed前都感谢NCBI呢？ PubMed覆盖了全世界70多个国家4300多种主要生物医学期刊的摘要和部分全文。其覆盖的时间段也非常长，早的可以追溯到20世纪60年代，通常而言，这已经足够早了，很少有人会需要查阅在此之前的文献。当然，研究生物医学史的工作者可能是个例外。而最新的文献几乎就在此时此刻。与PubMed挂钩的出版商会自动向PubMed提供最新的文献摘要，而往往在这个时候文献还没有正式出版。所以尽管生物医学的文章从被期刊接受到出版往往要好几个月的时间，但借助于PubMed，我们仍旧可以随时掌握最新的动向，从而大大有利于自己的临床和研究工作。还有些出版商通过PubMed提供文献的全文，有时甚至是免费的，这样，我们就可以在PubMed上真正享受"坐拥书城"的感觉了（关于如何获取全文将在以后的章节中详述）。

医学数据集

热门推荐

wuguangbin1230的博客

01-18

1万+

数据集:一文道尽医学图像数据集与竞赛： https://www.cnblogs.com/yumoye/p/10512460.html https://zhuanlan.zhihu.com/p/24634505 在AI与深度学习逐渐发展成熟的趋势下，人工智能和大数据等技术开始进入了医疗领域，它们把现有的一些传统流程进行优化，大幅度提高各种流程的效率、精度、用户体验，同时也缓解了医疗资源的压力和...

大语言模型数据集（三）

babyzbb636的博客

10-19

2087

在医疗领域，数据并不只是来自患者健康记录、医嘱条目和医生处方。事实上，目前已有数百万人通过家用工具包将他们的基因信息上传到商业数据库。医疗的相关的数据成为越来越重要的资源。NLP可以将人类语言翻译成机器可读的形式，允许机器从提供的数据中获得意义。医疗领域正使用NLP工具控制数据，这些数据的存储形式包括语音、文本、象形文字、照片等其他，通过它们得出有用结论。自然语言处理（NLP）技术这种颠覆性技术在医疗行业的使用，很好的辅助了医疗工作者，促进了医疗行业的发展。

论文笔记：AugGPT: Leveraging ChatGPT for Text Data Augmentation

missgrass的博客

07-14

3061

文本数据增强是克服许多自然语言处理（NLP）任务中样本量有限的挑战的有效策略。这一挑战在小样本学习场景中尤为突出，其中目标域中的数据通常更加稀缺且质量较低。缓解此类挑战的一种自然且广泛使用的策略是执行数据增强，以更好地捕获数据不变性并增加样本量。然而，当前的文本数据增强方法要么无法确保生成的数据的正确标记（缺乏忠实性），要么无法确保生成的数据足够的多样性（缺乏紧凑性），或者两者兼而有之。

【bioinformation 2】生物数据库

zzqingyun的博客

03-03

1261

🌞欢迎来到AI+医学的世界🌟本文由卿云阁原创！📆首发时间：🌹2024年3月3日🌹✉️希望可以和大家一起完成进阶之路！🙏作者水平很有限，如果发现错误，请留言轰炸哦！

医疗数据大集结

Debroon

03-19

3454

上表主要聚焦中文数据集(和少量混合)，其中个别英文数据集或多语数据集也附在最后以便参考。更多“英文”数据集将在后文的**“1.2 英文/多语言数据集”**或“其他附录”中进一步列出。当前出现了大量专注“图像+文本多模态”的医疗模型与评测，主要解决放射学影像、内窥镜图像、病理图像等结合文字报告的多模态理解、问答和生成。的医疗/生物医学相关数据集，涵盖问答、对话、知识图谱、文本抽取等任务。除上述大语言模型及数据集外，以下是一些常见的。

【数据集】多视图文本数据集