10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……...

387b6fec53e6d1a60731deebb1834990.png

作者:李姝

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源

HyperAI超神经为大家准备了 10 个中文医学相关的数据集,支持在线使用与加速下载,快来体验吧~

医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发,再到个性化医疗,数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。

医学数据集的形式多样,涵盖了不同维度和领域的数据资源。例如,在疾病诊断领域,像 RJUA-QA 这样的问答数据集推动了复杂医学知识的自动化应用;而在中医药领域,神农中医药数据集整合了传统中医药文献、临床案例和药方数据。

针对于此,本文整理了医学领域的 10 个数据集,涵盖神农中医药、中医药古籍、医学推理、医学问答……旨在帮助研究人员快速了解这些数据资源的分布与特点,并为其在具体研究问题中的应用提供启发。

点击查看更多开源数据集:

https://go.hyper.ai/SjWDr

中文医学数据集汇总

1

首个中文医疗专科问答推理数据集

预估大小:2.34 MB

下载地址:https://go.hyper.ai/rIwcK

该数据集是一个创新的医学泌尿外科专业问答推理数据集,由蚂蚁集团医学 LLM(大语言模型)团队与上海交通大学医学院附属仁济医院泌尿外科专家团队合作创建。其以 Q-context-A(问题-上下文-答案)格式呈现,其中的病例数据由专业医生根据临床经验编写,不涉及患者和医生的任何个人隐私。

2

中文医疗问答数据集

预估大小:279.64 MB

下载地址:https://go.hyper.ai/lM5sd

该数据集为中文医疗问答数据集,包含 6 个不同医疗科室文件夹,分别为:男科 94,596 个问答对、内科 220,606 个问答对、妇产科 183,751 个问答对、肿瘤科 75,553 个问答对、儿科 101,602 个问答对、外科 115,991 个问答对,总计 792,099 条数据。每个文件夹下有一个 csv 文件。

3

医学对话数据集

预估大小:118.35 MB

下载地址:https://go.hyper.ai/MCH57

这是一个为运行医学聊天机器人而设计的实验数据集,它包含 256,916 条患者与医生之间的对话。

4

 神农中医药数据集

预估大小:28.98 MB

下载地址:https://go.hyper.ai/iJsGu

该数据集是专门为中医药领域设计的大规模语言模型训练和评估的数据集。包含超 11 万个的指令数据,这些数据通过以实体为中心的自指令方法生成,围绕中医药领域的核心实体和不同意图场景,不仅能够提升模型在中医药相关问题的回答能力,还能辅助中医诊断,提供个性化的医疗建议。

5

中医药古籍数据集

预估大小:80.49 MB

下载地址:https://go.hyper.ai/pyHEs

该数据集包含了约 700 项中医药古籍文本,涵盖了从先秦至清末民国的历代医药典籍。这些文献不仅包括了医学理论、方剂学、药物学等内容,还包含了丰富的临床案例和医学百科知识。

6

中医诊断数据集

预估大小:341.69 MB

下载地址:https://go.hyper.ai/cIHaP

该数据集是一个专注于中医领域的高质量数据集,包含约 1GB 的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集主要由非网络来源的内部数据构成,99% 为简体中文内容,质量优异,信息密度可观,适用于预训练或继续预训练用途。

7

中医对话数据集

预估大小:737.32 MB

下载地址:https://go.hyper.ai/cCrcT

这个中文医疗数据集是一个全面的资源,用于开发和训练能够在医疗领域提供专业对话和建议的语言模型。它结合了多种类型的数据,包括百科知识、教材文本、实际医患对话以及评价数据,旨在提升模型的准确性和实用性。

8

医学推理数据集

下载地址:https://go.hyper.ai/BAVNR

该数据集由香港中文大学和深圳市大数据研究院于 2024 年发布,专为微调 HuatuoGPT-o1 这一医学大语言模型而设计,旨在提升其在复杂医学推理任务中的表现。

9

多语言医学能力测试基准数据集

预估大小:20.69 MB

下载地址:https://go.hyper.ai/ux6FF

该数据集是一个全面多语言医学能力测试基准数据集,由上海交通大学人工智能学院智慧医疗团队于 2024 年开发,旨在评估医学领域多语言模型的发展,涵盖了 6 种语言和 21 种医学子领域。

10

MMedC 大规模多语言医疗语料库

预估大小:31.05 GB

下载地址:https://go.hyper.ai/K8RcQ

该数据集是一个由上海交通大学人工智能学院智慧医疗团队于 2024 年构建的多语言医疗语料库,它包含了约 255 亿个 tokens,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语。

 
 

64f5614e6333811fed7e7d0aefc3b8e9.jpeg

 
 
 
 
 
 
 
 
 
 
 
 
往期精彩回顾




写了一本适合本科生的机器学习入门书适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
  • 交流群

请备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“加群。

也可以加入机器学习交流qq群772479961)

89eec3f385fb20313c3e41c65f0843ed.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值