中药垂直大模型汇总

中药垂直大模型汇总

2023

ShenNong-TCM


Paper: ShenNong-TCM: A Traditional Chinese Medicine Large Language Model
Data: https://huggingface.co/datasets/michaelwzhu/ShenNong_TCM_Dataset
Code:https://github.com/michael-wzhu/ShenNong-TCM-LLM

ShenNong-TCM由华东师范大学计算机科学与技术学院智能知识管理与服务团队完成,旨在推动大型语言模型在中医药领域的发展和落地,提升大型语言模型的在中医药方面的知识与回答医学咨询的能力,同时推动大模型赋能中医药传承。

BenTsao


Paper: https://ar5iv.labs.arxiv.org/html/2304.06975
Code: https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
Data: 未开源;原始来源:知识图谱数据: https://github.com/king-yyf/CMeKG_tools

本草大模型由哈尔滨工业大学社会计算与信息检索研究中心健康智能组合作研发。项目开源了经过中文医学指令精调/指令微调的大语言模型集,包括LLaMA、Alpaca-Chinese、Bloom、活字模型等。基于医学知识图谱以及医学文献,结合ChatGPT API构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。

TCMLLM

由北京交通大学计算机与信息技术学院医学智能团队开发的中医药大语言模型项目(TCMLLM)拟通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐指令微调大模型TCMLLM-PR。研发团队整合了8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《中医妇科学》和《中医儿科学》、2020版中国药典、中医临床经典医案数据、以及多个三甲医院的涵盖肺病、中风病、糖尿病、肝病、脾胃病等多病种的临床病历数据,构建了包含68k数据条目(共10M token)的处方推荐指令微调数据集,并使用此数据集,在ChatGLM大模型上进行大规模指令微调,最终得到了中医处方推荐大模型TCMLLM-PR。

Paper
Data:
Code:https://github.com/2020MEAI/TCMLLM

HHuangDi

Paper: https://www.cnki.com.cn/Article/CJFDTotal-TSGL20240123001.htm
Code:https://github.com/Zlasejd/HuangDI
Data: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的预训练语言模型(pre-trained model),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。

TCM-GPT


Paper: https://arxiv.org/abs/2311.01786
Code:
Data:

由北京邮电大学团队研发,该论文提出了一种新颖的面向传统中医领域的自适应预训练方法TCMDA。通过构建大规模特定领域的中医语料库TCM-Corpus-1B,并使用LoRA技术对特定领域进行高效的预训练和微调,从而有效应用于中医领域。在中医考试和中医诊断两个任务上,TCM-GPT-7B模型相对于其他模型分别提高了17%和12%的准确率,表现最好。该研究成功验证了在中医领域中使用70亿参数的大规模语言模型进行领域自适应的先驱性工作。

2024

Qibo


Paper:https://arxiv.org/pdf/2403.16056
GitHub:
Dataset:

Qibo由天津中医药团队完成, 主要以中医药领域的教科书为基础,构建了中医药领域的评估基准,并提供了不同科目的客观选择题,以评估中医药领域的基本知识能力,此外还验证了中药的识别能力,以及阅读和理解中药的能力, 中药辩证的能力,以及使用 GPT-4 来评估其答案的专业性、安全性和流畅性。

MedChatZH


Paper:https://www.sciencedirect.com/science/article/abs/pii/S0010482524003743
GitHub: https://github.com/tyang816/MedChatZH
Dataset:https://huggingface.co/tyang816/MedChatZH

  1. 收集并整理大量中医文本形成预训练语料库,构建通用对话与医学对话相结合的高质量数据集。该数据集经过启发式和基于奖励的评估,以过滤掉敏感信息和低质量的口语回答。
  2. 从互联网和中国各医院收集了超过 700 万条医疗质量保证指令。
  3. 评估 MedChatZH 在真实世界的中国医学 QA 基准数据集上的性能,证明其在多个评估指标上优于其他基线模型。

BianCang-TCM-LLM


Paper:
Code: https://github.com/QLU-NLP/BianCang-TCM-LLM?tab=readme-ov-file
Data:

扁仓中医大模型的训练数据包含两部分:

  1. (1)中医药指令数据集 (2)由心内科病历构建的中医辅助诊断数据集(将在未来开源)。
  2. 扁仓中医大模型以阿里通义千问Qwen-7B-Chat为底座,采用全参微调得到。

LingdanLLM


Paper:
Code: https://github.com/TCMAI-BJTU/LingdanLLM
Data: https://github.com/TCMAI-BJTU/LingdanLLM/blob/main/data

本项目旨在通过继续对百川2号模型进行预训练。训练数据集包括中医古籍、教科书和中国药典。这一过程不仅增强了模型对中医知识的理解,也为其深入掌握中医理论和实践提供了坚实的基础

其他相关数据集

TCM-SD 中医领域辨证数据集(/data/中医辨证数据集.zip)
中医治疗新冠流感支原体感染等有效病历集(/data/新冠、流感、支原体中医有效数据集.json)
中医文献问题生成数据集(/data/中医文献问题生成数据集.json)

参考

https://zhuanlan.zhihu.com/p/669025474?utm_id=0

  • 13
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
中医药数据集是指收集、整理和存储中医药相关信息的一组数据,以JSON(JavaScript Object Notation)格式进行存储和交换。 该数据集包含了丰富的中医药信息,如中药材的属性、功效、用法、禁忌症等。其中,中药材的属性包括中药名称、所属科属、分布地区、生长环境等;功效包括治疗的疾病范围、药理作用等;用法包括药物制剂形式、煎煮方法、药用部位等;禁忌症包括不适合使用的人群、副作用等。 中医药数据集的编制过程需要考虑数据来源的可靠性和全面性,通常会借助历代中医典籍、中药方剂书籍、临床实践经验等来进行权威性的参考。采集的数据可以进行分类、整理和标注,使得用户能够方便地通过检索、筛选和分析获取自己所需的中医药信息。 中医药数据集的应用领域广泛,对于研究中医药的学者、医药企业、中医医生以及普通用户都具有重要意义。学者和医药企业可以通过对数据集的分析和挖掘,探索中医药的有效成分和药理机制,进而研发新药或改进现有药物。中医医生可以利用数据集中的信息辅助判断病情和制定治疗方案。普通用户可以通过查询数据集中的中医药信息,了解中药的功效和使用方法,选择合适的中药进行保健或治疗。 总之,中医药数据集以JSON格式存储,通过收集、整理和存储中医药相关信息,为中医药研究和应用提供了一种方便、可靠的数据支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值