2024 最新高质量医学问答数据集

最新推荐文章于 2025-03-12 06:39:49 发布

数据猎手小k

最新推荐文章于 2025-03-12 06:39:49 发布

阅读量2.3k

点赞数 27

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011559552/article/details/142527154

版权

医学问答类数据集在机器学习中扮演着重要的角色，它们主要用于开发和训练智能问答系统，以便这些系统能够理解和回答与医学相关的查询。

医学问答类数据集在机器学习中的一些关键作用：

1、训练模型：

数据集提供了大量的问答对，机器学习模型可以通过这些数据学习如何理解和生成医学领域的回答。

2、语义理解：

医学问答数据集通常包含复杂的医学术语和概念，有助于训练模型理解医学领域的专业语言。

3、数据增强：

在数据稀缺的情况下，可以通过数据增强技术从现有的问答对中生成新的数据，以提高模型的泛化能力。

数据集：NEJM_Reasoning_Final_Common_Old_Prompt_test|医学推理数据集|问答系统

创建时间：2024-09-09
链接地址：NEJM_Reasoning_Final_Common_Old_Prompt_test|医学推理数据集|问答系统
数据集介绍：该数据集包含三个主要特征：id、query和answer，均为字符串类型。数据集分为三个部分：训练集、验证集和测试集，每个部分包含110个样本，总大小为2452329字节。数据集的配置名为'default'，数据文件路径分别为data/train-*、data/valid-*和data/test-*。

数据集：BiomixQA|生物医学数据集|问答系统数据集

创建时间：2024-09-04
链接地址：BiomixQA|生物医学数据集|问答系统数据集
数据集介绍：BiomixQA数据集是一个专门针对生物医学领域的问题回答数据集，包含两种类型的问题：多项选择题和真/假题。该数据集被用于验证基于知识图谱的检索增强生成（KG-RAG）框架在不同大型语言模型（LLMs）中的表现。数据集的多样性体现在问题的类型和覆盖的生物医学概念上，使其特别适合评估KG-RAG框架的性能。此外，该数据集支持生物医学自然语言处理、知识图谱推理和问答系统的研究和开发。数据集的来源包括多个生物医学知识图谱和数据库，如SPOKE、DisGeNET、MONDO、SemMedDB、Monarch Initiative和ROBOKOP。

数据集：CRAFT|合成数据集数据集|问答系统数据集

创建时间：2024-08-09
链接地址：CRAFT|合成数据集数据集|问答系统数据集
数据集介绍：CRAFT是一个用于任务特定合成数据集生成的项目，通过语料库检索和增强技术，提供了多个领域的合成数据集，如生物医学问答、常识问答、医学问答等。

数据集：Detsutut/medmcqa-ita|医学教育数据集|问答系统数据集

创建时间：2024-07-09
链接地址：Detsutut/medmcqa-ita|医学教育数据集|问答系统数据集
数据集介绍：MedMCQA-ITA是一个大规模多选题问答数据集的意大利语版本，旨在解决实际医学入学考试问题。该数据集包含问题和候选答案选项，目标是选择正确的答案。

数据集：PQAref|生物医学数据集|问答系统数据集

创建时间：2024-07-02
链接地址：生物医学数据集|问答系统数据集
数据集介绍：PQAref数据集是一个用于生物医学领域参考问答任务的数据集，旨在微调大型语言模型。该数据集包含三个部分：指令（问题）、摘要（从PubMed检索的相关摘要，包含PubMed ID、摘要标题和内容）和答案（预期答案，包含PubMed ID形式的参考）。数据集通过半自动方式创建，利用了PubMedQA数据集中的问题。

数据集：rag-datasets/rag-mini-bioasq|生物医学数据集|问答系统

更新时间：2024-06-17
链接地址：rag-datasets/rag-mini-bioasq|生物医学数据集|问答系统数据集
数据集介绍：该数据集主要用于问答和句子相似性任务，特别关注生物医学领域。数据集包含两个配置：text-corpus 和 question-answer-passages。text-corpus 配置包含文章段落，而 question-answer-passages 配置包含测试数据。数据集是从 BioASQ 的训练数据集中生成的子集，使用 `generate.py` 脚本进行处理。

数据集：SuMeyYao/ysmpubmedclt|生物医学数据集|问答系统数据集

更新时间：2024-06-06
链接地址：SuMeyYao/ysmpubmedclt|生物医学数据集|问答系统数据集
数据集介绍：该数据集的许可证为apache-2.0，主要用于表格问答任务，数据集语言为英语，大小介于1亿到10亿之间。

数据集：zhengr/HuangdiNeijing|中医学数据集|问答系统数据集

更新时间：2024-05-19
链接地址：zhengr/HuangdiNeijing|中医学数据集|问答系统数据集
数据集介绍：这是一个专注于医学问答的数据集，特别关注黄帝内经这一主题，支持中英文使用。

数据集：HPAI-BSC/medmcqa-cot|医学数据集|问答系统数据集

更新时间：2024-05-13
链接地址：HPAI-BSC/medmcqa-cot|医学数据集|问答系统数据集
数据集介绍：medmcqa-cot数据集是对原始MedMCQA数据集的增强版本，通过利用Mixtral-8x7B模型生成Chain of Thought(CoT)答案，提高了训练数据的质量。该数据集主要用于医学领域的多选题问答任务，涵盖英语语言，旨在提供一个高质量、易于使用的指令调优数据集。

数据集：ncbi/Hidden-Flaws-GPT-4V|医学教育数据集|问答系统数据集

更新时间：2024-05-01
链接地址：ncbi/Hidden-Flaws-GPT-4V|医学教育数据集|问答系统数据集
数据集介绍：该数据集包含图像、问题、选择、专业领域等多种特征，并涉及医学领域的问答任务。数据集详细列出了图像理解、医学知识回忆、逐步推理等特征，并评估了图像、回忆、推理和最终答案的正确性。

数据集：Shekswess/gemma_medquad_instruct_dataset|医学数据集|问答系统数据集

更新时间：2024-04-13
链接地址：Shekswess/gemma_medquad_instruct_dataset|医学数据集|问答系统数据集
数据集介绍：该数据集是一个英文医学问答数据集，大小介于10K到100K之间，专门用于指导监督下的Gemma LLMs微调。数据集基于Medquad，包含47,457个医学问答对，这些问答对来自NIH的12个权威来源，涵盖疾病、药物和医疗程序等多个医学主题。数据集还提供了XML格式的额外注释，包括问题类型、问题焦点、同义词、UMLS的唯一标识符和语义类型，支持多种信息检索和自然语言处理任务。

数据集：hajhouj/med_qa|医学数据集|问答系统数据集

更新时间：2024-03-27
链接地址：hajhouj/med_qa|医学数据集|问答系统数据集
数据集介绍：MedQA是一个多语言的开放领域问答数据集，专门用于解决医学问题。该数据集从专业医学考试中收集，涵盖英语、简体中文和繁体中文，分别包含12,723、34,251和14,123个问题。此外，还提供了一个大规模的医学教材文本库，供阅读理解模型获取回答问题所需的知识。

数据集：paoloitaliani/pubmedqa|生物医学数据集|问答系统数据集

更新时间：2024-02-29
链接地址：生物医药数据集|问答系统数据集
数据集介绍：数据集包含两个配置：classification和generative。classification配置用于分类任务，包含输入文本和正确答案索引；generative配置用于生成任务，包含输入文本和输出文本。每个配置都分为训练、验证和测试集。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。