I. 中医开源数据资源概览
传统中医药(TCM)拥有数千年的悠久历史,其在全球健康与保健领域的潜力日益受到认可。为了科学验证中医药的有效性、推动其现代化进程,并将其与现代生物医学有效融合,高质量数据的可获得性与深入分析至关重要 1。
在此背景下,开放数据倡议扮演着核心角色。通过共享资源,开放数据能够显著加速研究进程;通过打破信息壁垒,它能够促进国内外合作;通过提升研究方法与结果的透明度,它能够增强科研的可信度;最终,开放数据将有力支持中医药临床实践与相关卫生政策的循证决策 3。例如,有研究明确探讨了开放科学实践(如研究注册、数据共享、开放获取出版)对于传统、补充和综合医学(TCIM,直接涵盖中医)的益处,强调这些实践如何提升研究质量、增强公众信任、加速创新并改进循证决策 3。世界卫生组织(WHO)成立全球传统医学中心(GTMC)的举措,也突显了全球范围内对“强有力的证据和数据以指导传统医学政策、实践和法规”的迫切需求,这标志着国际层面对于数据驱动中医药发展的高度支持 1。
II. 全球主要中医开源数据集与专业数据库
A. 综合知识库与药理学数据库
这些数据库旨在整合多样化的中医药知识,将传统概念与现代药理学和生物医学信息联系起来。
1. SymMap (Symptom Mapping,症状关联)
-
核心内容:一个整合型数据库,旨在通过将中医药症状与草药、现代医学症状、疾病、活性成分及其分子靶点进行映射,从而连接中医药与现代医学 14。
-
数据内容:包含由专家委员会手动整理和统计推断的1717个中医药症状、499种草药、961个现代医学症状、5235种疾病、19595种草药成分和4302个靶基因的数据及它们之间的关联 16。
-
来源机构:北京中医药大学、中国科学院计算技术研究所、北京交通大学合作项目 14。
-
访问与格式:可通过网站 http://www.symmap.org/ 和 https://www.bioinfo.org/symmap 访问 16。数据组件可从专门的下载页面 (http://www.symmap.org/download/) 以表格形式(2.0版本为.xlsx文件)下载 14。
-
许可证:下载页面声明版权归贡献机构所有 14。虽然数据可下载,但在下载页面并未明确标示针对数据本身的开源许可证(如知识共享许可证)。用户应参考下载时提供的条款或联系提供方以明确重用权限,特别是商业用途。
-
相关出版物:Wu Y, Zhang F, Yang K, et al. SymMap: an integrative database of traditional Chinese medicine enhanced by symptom mapping. Nucleic Acids Research. 2019;47(D1):D1110-D1117 14。
2. HERB 2.0 (A Holistic Evidence-based Resource for TCM,中医药整体循证资源库)
-
核心内容:一个更新和扩展的数据库,整合了四种类型的中医药证据:临床试验、Meta分析、高通量实验(如转录组学)以及精选的文献参考。它关联了草药、成分、方剂、靶点和疾病 8。
-
数据内容:2.0版本包含8558项临床试验、8032篇Meta分析、2231项高通量实验、6644篇精选参考文献、6892种草药、44595种成分、6743个新增方剂、15515个基因靶点和30170种疾病 8。
-
来源机构:北京中医药大学、中国科学院计算技术研究所等机构合作 8。
-
访问与格式:可通过网站 HERB 2.0 和 HERB 2.0 访问 8。完整数据集或重要组成部分作为其出版物(《Nucleic Acids Research》)的补充数据(一个名为 "gkae1037_Supplemental_Files" 的zip文件)提供在线下载 8。
-
许可证:描述HERB 2.0的NAR文章采用知识共享署名-非商业性使用4.0国际许可协议 (CC BY-NC 4.0) 发布 8。这通常意味着相关数据也可在注明出处的前提下用于非商业性重用。
-
相关出版物:Fang S, Zhang F, Wu Y, et al. HERB 2.0: an updated database integrating clinical and experimental evidence for traditional Chinese medicine. Nucleic Acids Research. 2024;53(D1):D1404-D1413 8。
3. TCMM (Traditional Chinese Medicine Modernization database,中医药现代化数据库)
-
核心内容:一个大规模数据库,旨在通过智能流程整合高质量的中医药数据(方剂、成分、症状、证候)和西医数据(靶点、疾病、通路),以推动中医药现代化 20。
-
数据内容:包含20种现代化的中医药概念类型和它们之间的46种生物学关系,共计3,447,023条记录。其中包括48,034个方剂、69,816种成分及其相关的靶点、症状和疾病 20。
-
来源机构:鹏城实验室、安徽理工大学、华东理工大学 20。
-
访问与格式:可通过公开的Web界面 TCM Modernization 访问 20。该界面允许用户浏览实体和关系。如需获取完整数据集,用户需联系通讯作者(任志祥博士:jason.zhixiang.ren@outlook.com 或 徐欢博士:xh890421@163.com 20)。
-
许可证:被描述为“目前最大的非商业性中医药现代化数据库” 20。完整可下载数据的具体许可条款需在联系作者时确认。
-
相关出版物:Ren Z, Ren Y, Xu H, et al. TCMM: A Unified Database for Traditional Chinese Medicine Modernization and Therapeutic Innovations. medRxiv [Preprint]. 2024 Feb 21:2024.02.19.24303055 20。
4. BATMAN-TCM (Bioinformatics Analysis Tool for Molecular mechANism of Traditional Chinese Medicine,中医药分子机制生物信息学分析工具)
-
核心内容:一个整合型数据库,存储已知的(手动整理)和预测的中药成分与靶蛋白之间的相互作用(TTIs),旨在帮助探索中药药理机制和药物发现 15。
-
数据内容:2.0版本(2024年更新)包含17,068个已知的TTIs和约230万个预测的高可信度TTIs 15。
-
来源机构:北京生命组学研究所 15。
-
访问与格式:可通过 BATMAN 在线访问 15。现有摘要未提供关于直接批量下载选项或特定数据下载格式的明确信息 15。
-
许可证:现有摘要未指明许可协议 15。
-
相关出版物:Kong X, Liu C, Zhang Z, et al. BATMAN-TCM 2.0: an enhanced integrative database for known and predicted interactions between traditional Chinese medicine ingredients and target proteins. Nucleic Acids Research. 2024;52(D1):D115-D122 15。原始版本:Liu Z, et al. Sci Rep. 2016 15。
5. ITCM (Integrated Traditional Chinese Medicine,整合中医药平台)
-
核心内容:一个用户友好的平台,整理与中医药相关的科研数据,包含中医药文献、中药小分子表达谱(SMEP)和分析工具等模块。旨在支持活性成分筛选和药理作用研究 23。
-
数据内容:包含一个含有496种代表性活性成分及其药理转录组学图谱的数据存储库。整合了来自多种来源的25,857个方剂、8,454种草药、43,430种成分、18,851个靶点和11,180种疾病的数据 23。
-
来源机构:第二军医大学 23。
-
访问与格式:可通过在线平台 ITCM 访问 23。网站导航栏中提及一个“Download”链接,但现有摘要未明确说明可下载内容、格式及指南 24。
-
许可证:现有摘要未明确说明 23。
-
相关出版物:Exploring pharmacological active ingredients of traditional Chinese medicine by pharmacotranscriptomic map in ITCM. Brief Bioinform. 2023;24(2):bbac580 23。
6. TCMID (Traditional Chinese Medicine Integrative Database,中医药整合数据库)
-
核心内容:提供中草药信息,包括其性味归经、药用部位、功效主治、相关成分及靶点,以促进分子机制分析 12。
-
数据内容:数据库涵盖草药、成分、靶点和疾病。在Zenodo上托管的一个版本(v1)包含经过清理的数据(总数据量4.4 MB,ZIP文件132.7 kB)12。
-
来源机构:原始数据库由薛瑞超等人创建;Zenodo版本由U-BRITE项目上传 12。
-
访问与格式:原始数据库有其门户网站。一个快照/版本可在Zenodo (DOI: 10.5281/zenodo.8066910) 上获取,并可下载为 TCMID.zip 文件 12。
-
许可证:Zenodo版本采用知识共享署名4.0国际许可协议 (CC BY 4.0) 12。
-
相关出版物:原始文献:Xue R, Fang Z, Zhang M, et al. TCMID: Traditional Chinese Medicine integrative database for herb molecular mechanism analysis. Nucleic Acids Res. 2013;41(Database issue):D1089-95。TCMID 2.0版本:Huang L, Xie D, Yu Y, et al. Nucleic Acids Res. 2018;46(D1):D1117-D1120 12。
7. 中国方剂数据库 (Chinese Formula Database)
-
核心内容:一个大规模的中药方剂知识库,汇集了大量古代经典医籍和现代文献中的方剂信息 25。
-
数据内容:收录了来自710余种古籍(如《圣济总录》、《普济方》)及现代文献的古今中药方剂84,464首。每条记录详细介绍了方剂的不同名称、处方来源、药物组成及各家论述 25。
-
来源机构:中国中医科学院中医药信息研究所建设 25。该数据库是国家人口健康科学数据中心(NPHDC,亦称国家医学信息中心 NCMI)的一部分 25。
-
访问与格式:可通过国家医学信息中心门户网站 (国家人口健康科学数据中心) 访问。尽管NCMI提倡开放共享,但如此类特定数据集的访问可能采用“协议共享”方式 27,可能需要注册或正式申请。如果数据可直接下载,其格式在现有摘要中未具体说明。
-
许可证:现有摘要中未明确定义为具有标准许可证的“开源”数据。访问受NPHDC/NCMI政策的约束,这些政策旨在共享,但可能包含特定协议或限制 27。
-
相关出版物:现有摘要中未列出详细介绍该数据库构建的特定同行评审出版物,但它是国家级中医药重要机构的公认项目 25。
B. 基因组、蛋白质组与代谢组数据集
这些资源侧重于与中医药相关的分子层面数据,包括药用植物基因组学和中药效应的组学研究。
1. TCMPG (Traditional Chinese Medicine Plant Genome database,中药植物基因组数据库)
-
核心内容:一个专门收集中药用植物基因组的整合型数据库。它包含植物物种信息、基因组数据、源自这些植物的草药详情以及嵌入式基因组分析工具 7。
-
数据内容:目前包含160种药用植物、195个相应的基因组(不同组装水平)和255种草药。基因组数据包括参考基因组、通用特征格式(GFF3)文件、编码序列(CDS)和蛋白质序列(PEP)7。
-
来源机构:成都中医药大学 7
-
访问与格式:可通过其Web界面公开访问:TCMPG 7。数据可在网站上以标准生物信息学格式浏览和下载。
-
许可证:该数据库被描述为“可免费获取的资源”。来自贡献出版物的基因组数据通常采用如知识共享署名许可(CC BY 4.0)之类的许可证,允许在适当引用的前提下无限制地重用 7。
-
相关出版物:Ye Y, Yan T, Lu H, et al. TCMPG: an integrative database for traditional Chinese medicine plant genomes. Plant Mol Biol. 2022;109(3):341-350 (关联PMC9113410) 7。
2. 国家基因组科学数据中心-中医药分中心 (National Genomics Data Center - TCM Branch)
-
核心内容:该中心成立于2024年6月,旨在为中医药生命组学(基因组学、转录组学、蛋白质组学、代谢组学)和健康大数据建立一个开放共享与整合挖掘的研究体系 28。
-
数据内容:特色资源包括:
-
中医四诊客观化信息数据(来自健康人、孕妇、慢病患者)28。
-
中医特色临床疾病证候病人的生物样本蛋白质组、代谢组数据资源 28。
-
中医药基础研究疾病动物模型的器官蛋白质组、代谢组、转录组及质谱成像数据资源 28。
-
药用动植物特色数据资源(叶绿体/线粒体基因组、核基因组、基因注释、比较基因组学、转录组学、蛋白质结构、代谢组学、名贵中药材重测序数据)28。
-
来源机构:依托中国中医科学院医学实验中心;是国家基因组科学数据中心(NGDC)网络的一部分 28。
-
访问与格式:旨在提供便捷高效的数据访问。具体的访问方法将通过NGDC门户网站或直接联系 (ngdc(at)big.ac.cn)。部分特色资源的链接可在分中心页面 (Subcenter - 国家基因组科学数据中心中医药分中心 - National Genomics Data Center (CNCB - NGDC)) 找到 28。数据格式将因组学类型而异。
-
许可证:作为国家开放数据计划的一部分,但单个数据集的具体许可证可能适用,并应在访问时核实。
-
相关出版物:作为一个新成立的中心,具体的数据集出版物将随时间推移而出现。
C. 用于人工智能、机器学习和自然语言处理(NLP)的数据集
此类数据集专为训练和评估人工智能模型而整理,特别是在大语言模型(LLM)性能评估、命名实体识别和自动辨证等领域。
1. TCMD (Traditional Chinese Medicine QA Dataset,中医问答数据集)
-
核心内容:一个医学问答(QA)数据集,旨在评估大语言模型(LLM)解决模仿中医执业医师资格考试风格的任务的能力 29。
-
数据内容:包含跨多个中医领域的多项选择题(MCQ),分为A1/A2型(带陈述或临床案例的单选题)、A3型(共享临床病史题干的若干问题)和B1型(共享相互关联概念选项的若干问题)。训练集包含2851个问题,测试集包含600个问题,并为答案提供了解释 30。
-
来源机构:南京理工大学和南京中医药大学的研究人员 31。
-
访问与格式:相关论文 (arXiv:2406.04941) 暗示数据集和提示可在“数据集本身”中找到 31,表明可能发布,但现有摘要未提供直接的公开下载链接。研究人员可能需要检查arXiv页面上的补充材料或联系作者(例如 Ping Yu 31)。
-
许可证:现有摘要未明确说明 31。
-
相关出版物:Yu P, Song K, He F, Chen M, Lu J. TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models. arXiv [cs.CL]. 2024 Jun 7. arXiv:2406.04941 29。
2. TCMBench 及 TCM-ED 数据集
-
核心内容:一个用于评估LLM在中医领域性能的综合基准,其中包含源自中医执业医师资格考试(TCMLE)的TCM-ED数据集。它还引入了TCMScore,一个用于评估LLM生成的中医相关答案质量的指标 34。
-
数据内容:TCM-ED数据集包含来自TCMLE的5473个问题,其中1300个问题附有权威解析。它涵盖了TCMLE的核心组成部分,包括中医基础和临床实践 34。
-
来源机构:与北京邮电大学等机构相关的作者(根据arXiv论文作者信息推断 36)。
-
访问与格式:相关论文 (arXiv:2406.01126) 可获取 36。该数据集在阿里云天池上被提及 34,该平台也列出了论文的PDF版本。实际的数据集文件可能可以从天池平台下载,或通过论文/相关资源中提供的链接获取。
-
许可证:TCMBench在阿里云天池的页面显示其采用CC BY-NC-SA 4.0许可证 35。应对数据集组件本身的许可证进行核实。
-
相关出版物:Yue W, Wang X, Zhu W, et al. TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine. arXiv [cs.CL]. 2024 Jun 3. arXiv:2406.01126 36。
3. ZhongJing-OMNI (仲景·墨翟多模态中医大模型评测基准)
-
核心内容:首个旨在评估大语言模型中医知识的多模态基准数据集,独特地将文本信息与视觉数据(舌诊图像)相结合 37。
-
数据内容:包括多项选择题(MCQ)、开放式问答题(OpenQA)、临床案例问答题(CaseQA)以及一个多模态舌诊问答部分,其中包含高分辨率舌象图片以及配对的诊断问题和专家答案 37。
-
来源机构:由GitHub用户pariskang(康雁岚)开发,隶属于复旦大学(根据联系邮箱推断 37)。
-
访问与格式:可在GitHub仓库公开访问和下载:GitHub - pariskang/ZhongJing-OMNI: First Multimodal Traditional Chinese Medicine Dataset 37。数据结构化存储在文件夹中(MCQ/, OpenQA/, CaseQA/ 通常为CSV格式;TongueDiagnosis/ 包含图像和问答的.txt文件)。
-
许可证:README摘要中未明确说明许可证信息 37。用户应检查GitHub仓库中的LICENSE文件或进一步咨询。
-
相关出版物:数据集于2024年发布。README中提供了引用格式 37,表明可能有相关的出版物或正式的数据集发布声明。
4. TCM-SD (中医领域辨证数据集 / Syndrome Differentiation Dataset) & ZY-BERT
-
核心内容:一个针对中医核心任务——从自然语言临床记录中进行辨证——的基准数据集。它被用于开发ZY-BERT,一个中医领域专用的预训练语言模型 10。
-
数据内容:包含54,152条真实世界的临床记录,涵盖148种证候。此外,还收集了一个大规模的未标注中医领域文本语料库(来自中医文献,公开版本不含知网学术论文)用于预训练ZY-BERT 10。
-
来源机构:包括苏州大学在内的机构的研究人员(根据所引论文的作者单位推断 10)。
-
访问与格式:完整数据集 ("TCM_SD_with_knowledge") 可通过阿里云天池链接访问:TCM-SD 中医领域辨证数据集_数据集-阿里云天池 10。预训练语料库和ZY-BERT模型可通过ZY-BERT GitHub仓库 (Borororo/ZY-BERT) 中提供的Dropbox和Google Drive链接下载 10。数据格式包括JSON和压缩档案。
-
许可证:TCM-SD数据集采用CC BY-NC-SA 4.0许可证 10。
-
相关出版物:Ren M, Huang H, Zhou Y, et al. TCM-SD: A Benchmark for Probing Syndrome Differentiation via Natural Language Processing. Proc CCL. 2022. 10。
5. TCM_NER_datasets (中医命名实体识别数据集)
-
核心内容:一个用于中医文本命名实体识别(NER)的数据集,旨在弥补公开大规模中医NER资源的不足。实体类型包括症状、病因、中药、中成药和功效 39。
-
数据内容:包含387,465个中文字符。数据从一个中医网站 (zhzyw.com) 爬取,经过清洗并由临床专家使用BIO标签进行标注。以 train.txt 和 test.txt 文件形式提供 39。
-
来源机构:由GitHub用户cshan-github开发,与论文 "MC-TCMNER_A Multi-Modal Fusion Model..." 相关 39。
-
访问与格式:可在GitHub上公开获取:GitHub - cshan-github/TCM_NER_datasets: TCM NER dataset used in the paper "MC-TCMNER_A Multi-Modal Fusion Model Combining Contrast Learning Method for Traditional Chinese Medicine NER" 39。数据为纯文本格式。
-
许可证:README摘要中未明确提及许可证信息 39。用户应检查仓库。
-
相关出版物:与论文 "MC-TCMNER_A Multi-Modal Fusion Model Combining Contrast Learning Method for Traditional Chinese Medicine NER" 相关 39。
6. 中文医药实体识别数据集 (Chinese Medicine Entity Recognition Dataset, Kaggle)
-
核心内容:一个用于中文医药文本NER的数据集,标注了13种实体类别:药物、药物成分、疾病、症状、证候、疾病组、食物、食物组、人群、药物组、药物剂型、药性、药物功效 40。
-
数据内容:包含1000个训练样本 40。
-
来源机构:由Kaggle用户ChaneMo上传 40。
-
访问与格式:可在Kaggle上获取:Chinese Medicine Entity Recognition Dataset | Kaggle 40。格式可能是Kaggle数据集常用的CSV或JSON。
-
许可证:现有摘要未指明许可证 40。用户必须检查Kaggle数据集页面上的“License”选项卡。
7. CBLUE (Chinese Biomedical Language Understanding Evaluation,中文生物医学语言理解评测)
-
核心内容:一个用于评估中文生物医学语言理解模型在各种任务中性能的基准。虽然并非专门针对中医,但它包含与中医相关的任务和数据集,例如从中药说明书中构建知识图谱和循证医学(EBM)关系抽取 41。
-
数据内容:一系列针对不同任务的数据集。例如,CBLUE 1.0版包含了CMeEE(中文医学实体抽取)、CMedIE(中文医学信息抽取-关系)、CHIP-CTC(临床试验标准分类)等。其中一个特定数据集涉及从中药说明书中提取关键信息,以构建合理用药的知识图谱 41。
-
来源机构:由多个机构合作完成,常托管于阿里云天池平台 41。
-
访问与格式:数据集通常可通过阿里云天池平台获取(例如CBLUE 1.0的数据集ID为95414 41)。格式因任务而异。
-
许可证:CBLUE中的各个子数据集可能适用特定的许可证。
-
相关出版物:CBLUE有相关的概述性论文以及针对特定任务/数据集的论文 41。
8. 中医文献问题生成数据集 (TCM Literature Question Generation Dataset)
-
核心内容:一个包含从大量中医文献中人工生成的问题-答案对的数据集,旨在用于问题生成或问答模型训练等任务 42。
-
数据内容:包含3500篇语料文档,每篇文档均由人工标注产生1至4对(问题,答案)对 42。
-
来源机构:与天池平台的中医药问题生成大赛相关 42。
-
访问与格式:托管于阿里云天池:中医文献问题生成数据集_数据集-阿里云天池 42。具体的下载说明、格式详情和许可证在现有摘要中不明确 42。
-
许可证:现有摘要未指明。
9. TCM-3CEval (中医大模型综合评测基准)
-
核心内容:一个旨在从三个关键维度评估中医领域大语言模型(LLM)能力的基准:核心知识掌握、古籍文献理解和临床决策能力 5。
-
数据内容:采用多维度问题和真实临床案例。评估内容涵盖中医基础理论、中医诊断学、中药学和方剂学等核心课程,使用多种题型(选择题、填空题、简答题)5。
-
来源机构:未明确说明,但论文提及评估了包括国际模型(GPT-4o)、中文模型(InternLM)和医学专用模型在内的多种模型 5。
-
访问与格式:该基准据称在“Medbench的中医赛道”上可用 5。具体的格式细节需在该平台查找。
-
许可证:现有摘要未指明。
-
相关出版物:Chen C, Li J, Wang Y, et al. TCM-3CEval: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine across Core Knowledge, Classical Text Understanding, and Clinical Decision-Making. arXiv [cs.CL]. 2025 Mar. arXiv:2503.07041 5。
D. 专业图像与其他模态数据集
这些数据集侧重于对中医药某些方面至关重要的非文本数据。
1. NB-TCM-CHM (Ningbo TCM Chinese Herb Medicine Dataset,宁波市中医院中草药图像数据集)
-
核心内容:一个中草药果实图像数据集,旨在用于开发和评估基于深度学习的中草药识别分类方法 9。
-
数据内容:由两个子数据集组成:数据集1包含通过网络爬虫收集并经中医专家标注的20种常见中草药果实的3384张图像;数据集2包含使用智能手机拍摄的相同中草药果实的400张图像,用于实际功效评估 43。图像按药材名称分文件夹存储。
-
来源机构:东北大学(沈阳)、宁波大学、宁波市中医院和史蒂文斯理工学院合作 43。
-
访问与格式:可在Mendeley Data知识库公开访问和下载:Ningbo Traditional Chinese Medicine Chinese Herb Medicine (NB - TCM - CHM) Dataset - Mendeley Data (DOI: 10.17632/2kjmzjyrmd.3) 9。图像可能是标准格式(如JPEG、PNG)。
-
许可证:知识共享署名4.0国际许可协议 (CC BY 4.0) 9。
-
相关出版物:Tian D, Zhou C, Wang Y, Zhang R, Yao Y. NB-TCM-CHM: Image dataset of the Chinese herbal medicine fruits and its application in classification through deep learning. Data Brief. 2024;54:110405 43。
E. 知识图谱 (KGs)
知识图谱以相互连接的方式表示数据,非常适合中医药的整体性特点。
1. TCM-MKG (Traditional Chinese Medicine Multi-dimensional Knowledge Graph,中医药多维知识图谱)
-
核心内容:一个全面的开源知识图谱,整合并标准化了来自30多个权威中医药和现代生物医学资源的数据。它旨在将古老的中医药智慧与当代研究联系起来 11。
-
数据内容:包括中医药术语(WHO IST TCM)、中成药(CPM)、中药饮片(CHP)、天然产物(NP)、化学成分、疾病靶点及其相互关系。遵循ICD-11、UMLS、MeSH和DOID等国际标准。整合了来自DrugBank、BioGRID、DisGeNET、STRING、Ensembl、UniProt、ETCM、HERB、SymMap、TCMbank、TCMID、TCMSP等数据库的数据 11。
-
来源机构:由曾靖淇 (Jingqi Zeng) 开发 11。
-
访问与格式:可在Zenodo (DOI: 10.5281/zenodo.15395588) 上获取。数据以结构化表格格式(TSV文件,总大小1.1 GB)提供,并附有PDF文档 ("TCM-MKG_Open_Source_Documentation.pdf") 11。
-
许可证:知识共享署名-非商业性使用4.0国际许可协议 (CC BY-NC 4.0) 11。
-
相关出版物:Zeng J, Jia X. Quantifying compatibility mechanisms in traditional Chinese medicine with interpretable graph neural networks. Journal of Pharmaceutical Analysis. 2025 (In Press, Corrected Proof). 11。
F. 来自通用存储库的其他值得注意的数据集
这些是在通用数据存储库中发现的,为中医开放数据生态系统做出贡献的数据集。
1. TCMEval-SDT (Figshare)
-
核心内容:一个专门用于评估中医辨证思维的基准数据集 13。
-
数据内容:包括 Train_TCM_Data_v1.json (394.31 kB)、Validation_TCM_Data_v1.json (55 kB) 和 Test_TCM_Data_v1.json (55.11 kB) 13。
-
来源机构:作者为朱焱 (Yan Zhu) 13。
-
访问与格式:托管于Figshare (DOI: 10.6084/m9.figshare.27184596.v4 13)。一个摘要中提到文件有“下载限制” 13,但13的另一部分提供了直接的“全部下载 (514.4 kB)”链接,表明其可访问。数据为JSON格式。
-
许可证:CC BY 4.0 13。
2. TCM-like Datasets generated with TCM-Navigator (Zenodo,使用TCM-Navigator生成的类中药数据集)
-
核心内容:使用TCM-Navigator工具生成的类中药化合物数据集 44。
-
数据内容:除了“类中药化合物”外,未提供数据内容的详细信息。
-
来源机构:由陈菲颖 (Feiying Chen) 创建 44。
-
访问与格式:托管于Zenodo (DOI: 10.5281/zenodo.15369210 44)。记录可公开访问,但文件本身“仅限有权限的用户访问”,这意味着直接下载可能需要许可或登录 44。
-
许可证:知识共享署名4.0国际许可协议 (CC BY 4.0) 44。
3. TCMdataset (Six Meridian Syndrome Differentiation,六经辨证数据集) (GitHub)
-
核心内容:两个基于《伤寒论》六经辨证理论的数据集 (MYD.json, TCM-FD.json) 45。
-
数据内容:数据集为JSON格式。
-
来源机构:GitHub用户JustinWYJ的仓库 45。
-
访问与格式:可在GitHub上公开获取:GitHub - JustinWYJ/TCMdataset: Traditional Chinese Medicine Six Meridian Syndrome Differentiation Dataset/ 45。
-
许可证:现有摘要未明确提供许可证信息 45。用户应检查仓库中的LICENSE文件。
中医药数据集的发展轨迹反映了数据科学领域的普遍趋势:从最初对现有知识(如方剂、药性)的数字化,发展到分子数据的生成(各类组学数据),再到当前人工智能/机器学习专用数据集的显著增长。这一演变不仅表明中医药研究正在积极拥抱现代数据驱动的方法,也揭示了从知识积累到知识发现,再到智能应用的深化过程。早期数据库侧重于保存和组织传统知识,为后续研究奠定了基础。随着生物技术的进步,组学数据库的出现使得研究者能够从分子层面探索中药的作用机制。而近期大量涌现的AI/ML数据集,则标志着中医药研究进入了利用先进计算工具进行模式识别、预测建模和智能辅助决策的新阶段。这种发展趋势预示着未来中医药的传承与创新将更加依赖于多源异构数据的整合分析以及人工智能技术的深度赋能。
表1:部分全球中医开源数据集概览
数据集/数据库名称 (英文/中文) | 主要关注点 | 主要数据类型 | 访问方式/链接 | 许可证(已知) |
SymMap | 中西医症状映射、药物靶点 | 症状、草药、成分、疾病、靶点 | 未明确针对数据 | |
HERB 2.0 | 中医药循证资源 | 临床试验、Meta分析、组学数据、文献 | 文章CC BY-NC 4.0 | |
TCMM | 中医药现代化知识库 | 方剂、成分、靶点、症状、疾病 | 非商业,完整数据需联系 | |
BATMAN-TCM | 中药成分-靶点相互作用 | 成分、靶点、相互作用 | 未明确 | |
ITCM | 整合中医药平台、药理转录组 | 方剂、草药、成分、表达谱 | 未明确 | |
TCMID | 中草药分子机制 | 草药、成分、靶点、疾病 | Zenodo (DOI: 10.5281/zenodo.8066910) | CC BY 4.0 |
中国方剂数据库 | 中药方剂 | 方剂组成、来源、论述 | 协议共享 | |
TCMPG | 中药植物基因组 | 植物基因组、草药信息 | 自由访问,部分数据CC BY 4.0 | |
国家基因组科学数据中心-中医药分中心 | 中医药生命组学大数据 | 四诊信息、多组学数据 | Subcenter - 国家基因组科学数据中心中医药分中心 - National Genomics Data Center (CNCB - NGDC) | 国家开放数据倡议 |
TCMD | LLM中医问答能力评测 | 多项选择题(中医执考风格) | arXiv:2406.04941 (获取方式待明确) | 未明确 |
TCMBench (TCM-ED) | LLM中医能力综合评测 | 中医执考问题、权威解析 | Aliyun Tianchi, arXiv:2406.01126 | CC BY-NC-SA 4.0 (天池) |
ZhongJing-OMNI | LLM中医多模态能力评测 | 文本问答、舌诊图像 | GitHub - pariskang/ZhongJing-OMNI: First Multimodal Traditional Chinese Medicine Dataset | 未明确(GitHub) |
TCM-SD & ZY-BERT | 中医辨证NLP基准 | 临床记录、证候 | Aliyun Tianchi (DOI: 10.17632/...), GitHub (Borororo/ZY-BERT) | CC BY-NC-SA 4.0 |
TCM_NER_datasets | 中医命名实体识别 | 标注文本(症状、药物等) | 未明确(GitHub) | |
NB-TCM-CHM | 中草药果实图像识别 | 图像 | Mendeley Data (DOI: 10.17632/2kjmzjyrmd.3) | CC BY 4.0 |
TCM-MKG | 中医药多维知识图谱 | 术语、药物、成分、疾病、靶点 | Zenodo (DOI: 10.5281/zenodo.15395588) | CC BY-NC 4.0 |
TCMEval-SDT | 中医辨证思维评测 | JSON格式数据 | Figshare (DOI: 10.6084/m9.figshare.27184596.v4) | CC BY 4.0 |
引用
-
WHO Global Traditional Medicine Centre - World Health Organization (WHO), 访问时间为 五月 19, 2025, WHO Global Traditional Medicine Centre
-
Traditional Chinese Medicine - Challenges and Prospects for Rehabilitation Medicine - IBN, 访问时间为 五月 19, 2025, https://ibn.idsi.md/ro/vizualizare_articol/142560/datacite
-
Open science practices in traditional, complementary, and integrative medicine research: A path to enhanced transparency and collaboration - PMC - National Institutes of Health (NIH), 访问时间为 五月 19, 2025, Open science practices in traditional, complementary, and integrative medicine research: A path to enhanced transparency and collaboration - PMC
-
Qingna | Exploration on Standardization of Clinical Research Data in a Clinical Trial Institute of Traditional Chinese Medicine, 访问时间为 五月 19, 2025, Qingna | Exploration on Standardization of Clinical Research Data in a Clinical Trial Institute of Traditional Chinese Medicine | Journal of the Society for Clinical Data Management
-
TCM-3CEval: A Triaxial Benchmark for Assessing Responses From Large Language Models in Traditional Chinese Medicine - arXiv, 访问时间为 五月 19, 2025, TCM-3CEval: A Triaxial Benchmark for Assessing Responses From Large Language Models in Traditional Chinese Medicine
-
Current situation and countermeasures of traditional Chinese medicine resource distribution: a case study of Wuyi County in China - PubMed Central, 访问时间为 五月 19, 2025, Current situation and countermeasures of traditional Chinese medicine resource distribution: a case study of Wuyi County in China - PMC
-
TCMPG: an integrative database for traditional Chinese medicine ..., 访问时间为 五月 19, 2025, TCMPG: an integrative database for traditional Chinese medicine plant genomes - PMC
-
HERB 2.0: an updated database integrating clinical and ..., 访问时间为 五月 19, 2025, https://academic.oup.com/nar/article/53/D1/D1404/7903361
-
NB-TCM-CHM: Image dataset of the Chinese herbal medicine fruits ..., 访问时间为 五月 19, 2025, NB-TCM-CHM: Image dataset of the Chinese herbal medicine fruits and its application in classification through deep learning - PMC
-
Borororo/ZY-BERT - GitHub, 访问时间为 五月 19, 2025, GitHub - Borororo/ZY-BERT
-
Traditional Chinese Medicine Multidimensional Knowledge Graph, 访问时间为 五月 19, 2025, Traditional Chinese Medicine Multidimensional Knowledge Graph
-
TCMID: Traditional Chinese Medicine integrative database for herb ..., 访问时间为 五月 19, 2025, TCMID: Traditional Chinese Medicine integrative database for herb molecular mechanism analysis
-
TCMEval-SDT - Figshare, 访问时间为 五月 19, 2025, TCMEval-SDT
-
SymMap, 访问时间为 五月 19, 2025, http://www.symmap.org/
-
BATMAN-TCM - Database Commons, 访问时间为 五月 19, 2025, BATMAN-TCM - Database Commons
-
SymMap: an integrative database of traditional Chinese medicine enhanced by symptom mapping - PubMed, 访问时间为 五月 19, 2025, SymMap: an integrative database of traditional Chinese medicine enhanced by symptom mapping - PubMed
-
SymMap: an integrative database of traditional Chinese medicine ..., 访问时间为 五月 19, 2025, https://academic.oup.com/nar/article/47/D1/D1110/5150228
-
www.symmap.org, 访问时间为 五月 19, 2025, http://www.symmap.org/download/
-
www.symmap.org, 访问时间为 五月 19, 2025, http://www.symmap.org/help/
-
TCMM: A Unified Database for Traditional Chinese Medicine ..., 访问时间为 五月 19, 2025, TCMM: A Unified Database for Traditional Chinese Medicine Modernization and Therapeutic Innovations | medRxiv
-
TCM Modernization, 访问时间为 五月 19, 2025, TCM Modernization
-
BATMAN-Home, 访问时间为 五月 19, 2025, BATMAN
-
ITCM - Database Commons - National Genomics Data Center, 访问时间为 五月 19, 2025, ITCM - Database Commons
-
ITCM, 访问时间为 五月 19, 2025, ITCM
-
中国方剂数据库 - 国家人口健康科学数据中心, 访问时间为 五月 19, 2025, 国家人口健康科学数据中心
-
Population Health Data Archive - Re3data.org, 访问时间为 五月 19, 2025, Population Health Data Archive | re3data.org
-
服务影响力 - 国家人口健康科学数据中心, 访问时间为 五月 19, 2025, 国家人口健康科学数据中心
-
国家基因组科学数据中心中医药分中心- National Genomics Data Center (CNCB - NGDC), 访问时间为 五月 19, 2025, Subcenter - 国家基因组科学数据中心中医药分中心 - National Genomics Data Center (CNCB - NGDC)
-
ping yu - Google Scholar, 访问时间为 五月 19, 2025, https://scholar.google.com/citations?user=QRo2zKEAAAAJ&hl=en
-
TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models, 访问时间为 五月 19, 2025, TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models
-
arxiv.org, 访问时间为 五月 19, 2025, [2406.04941] TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models
-
arXiv:2406.04941v1 [cs.CL] 7 Jun 2024, 访问时间为 五月 19, 2025, https://arxiv.org/pdf/2406.04941?
-
Ping Yu | Papers With Code, 访问时间为 五月 19, 2025, Ping Yu | Papers With Code
-
TCMBench: A Comprehensive Benchmark for Evaluating Large ..., 访问时间为 五月 19, 2025, TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine_数据集-阿里云天池
-
TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine的全部评论 - 阿里云天池, 访问时间为 五月 19, 2025, TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine的全部评论_数据集-阿里云天池
-
arxiv.org, 访问时间为 五月 19, 2025, https://arxiv.org/abs/2406.01126
-
pariskang/ZhongJing-OMNI: First Multimodal Traditional ... - GitHub, 访问时间为 五月 19, 2025, GitHub - pariskang/ZhongJing-OMNI: First Multimodal Traditional Chinese Medicine Dataset
-
TCM-SD 中医领域辨证数据集_数据集-阿里云天池, 访问时间为 五月 19, 2025, TCM-SD 中医领域辨证数据集_数据集-阿里云天池
-
cshan-github/TCM_NER_datasets: TCM NER dataset used ... - GitHub, 访问时间为 五月 19, 2025, GitHub - cshan-github/TCM_NER_datasets: TCM NER dataset used in the paper "MC-TCMNER_A Multi-Modal Fusion Model Combining Contrast Learning Method for Traditional Chinese Medicine NER"
-
Chinese Medicine Entity Recognition Dataset - Kaggle, 访问时间为 五月 19, 2025, Chinese Medicine Entity Recognition Dataset | Kaggle
-
一文带你详解天池医疗数据集_天池技术圈-阿里云天池, 访问时间为 五月 19, 2025, 一文带你详解天池医疗数据集_天池技术圈-阿里云天池
-
中医文献问题生成数据集_数据集-阿里云天池, 访问时间为 五月 19, 2025, 中医文献问题生成数据集_数据集-阿里云天池
-
NB-TCM-CHM: Image dataset of the Chinese herbal medicine fruits ..., 访问时间为 五月 19, 2025, NB-TCM-CHM: Image dataset of the Chinese herbal medicine fruits and its application in classification through deep learning - PubMed
-
TCM-like Datasets generated with TCM-Navigator - Zenodo, 访问时间为 五月 19, 2025, TCM-like Datasets generated with TCM-Navigator
-
JustinWYJ/TCMdataset: Traditional Chinese Medicine Six ... - GitHub, 访问时间为 五月 19, 2025, GitHub - JustinWYJ/TCMdataset: Traditional Chinese Medicine Six Meridian Syndrome Differentiation Dataset/
-
中医药健康大数据产业技术创新战略联盟成立, 访问时间为 五月 19, 2025, 中医药健康大数据产业技术创新战略联盟成立_行业资讯_新闻资讯_中文版_中国专利代理(香港)有限公司
-
2024年“数据要素×”大赛优秀项目案例集——医疗健康案例之三| 中医药行业雷公大模型, 访问时间为 五月 19, 2025, 2024年“数据要素×”大赛优秀项目案例集——医疗健康案例之三 | 中医药行业雷公大模型-国家数据局