本文目录
一、大语言模型融合制药专业知识,赋能药企质量管理
二、从医学角度总结并点评已问世的中医药大语言模型
三、大语言模型在医药健康领域的应用
四、盘点已问世的15种中医药大语言模型
五、盘点已问世的中医药大语言模型
一、大语言模型融合制药专业知识,赋能药企质量管理
(日立解决方案 ,日立解决方案)
人工智能,尤其大语言模型,是全球关注的前沿热点,但其在医药领域的商业化应用场景,特别在CMC和生产质量领域,还缺乏成功案例。日立和识林自2023年开展合作,将日立解决方案在系统配置和数据管理的技术能力,结合识林在制药专业知识十多年的积累,针对复宏汉霖质量管理智能化升级提供了高效解决方案。
此次合作的一个重要方面是如何应用大语言模型融合专业知识提升偏差管理的能力和效果。通过偏差描述和根本原因分析相似偏差,并计算相似度,提供判断重复偏差客观量化的专业参考,提高了查询效率和对历史重复偏差的关注度。结合内部和外部的知识库,大模型可从大量历史数据检索偏差产生可能的原因,为调查提供参考思路。同时,大模型可检索官方检查公布的缺陷案例,在识林中获得针对性整改措施等更多参考资料。
大语言模型和识林知识库赋能的QMS系统,有助于复宏汉霖有效减少偏差的重复发生,提高生产和质量管理过程中的合规性、稳定性和效率。
此次合作深入探索了大语言模型在制药行业的实际应用,为复宏汉霖的质量管理提供了新的思路和技术突破。然而,将大模型与制药领域的专业知识有效融合,仍处于初步阶段。项目团队深刻认识到,大模型在制药企业的专业应用远非仅依赖模型本身或算力,关键在于对业务场景的深入理解和专业知识的扎实储备。这种认知为大模型在制药领域的进一步应用和优化提供了信心,日立和识林将继续深化合作,探索更多基于大语言模型等人工智能的医药行业的智能化应用场景。
关于复宏汉霖
复宏汉霖(2696.HK)是一家国际化的创新生物制药公司,致力于为全球患者提供可负担的高品质生物药,产品覆盖肿瘤、自身免疫疾病、眼科疾病等领域,已在中国上市5款产品,在国际获批上市3款产品,23项适应症获批,3个上市申请分别获中国药监局和欧盟EMA受理。自2010年成立以来,复宏汉霖已建成一体化生物制药平台,高效及创新的自主核心能力贯穿研发、生产及商业运营全产业链。公司已建立完善高效的全球创新中心,按照国际药品生产质量管理规范(GMP)标准进行生产和质量管控,不断夯实一体化综合生产平台,其中,公司商业化生产基地已相继获得中国、欧盟和美国GMP认证。
关于识林
识林是专注全球药业监管法规、专业解决方案的一站式服务平台,提供数据库+培训+工具(软件)+专业服务,系统化解决产业和监管的合规体系建设和专业人才培养问题,助力知识型产业,学习型企业,求知型人才。
识林拥有超过50万+的专业资料和实时更新的全球法规,提供定制化学习服务,帮助企业提升业务效率和团队能力。依托具有国际视野和资深产业经验的专家团队,识林可提供出海能力和合规体系建设的系统化解决方案。同时,基于十多年积累的专业知识数据库和最新的大语言模型能力,识林正在探索量化管理、知识管理等创新管理工具的应用和整合服务。
关于日立解决方案
日立解决方案(中国)有限公司是日立集团在IT解决方案领域的代表公司。公司依托日立创业之初即拥有的百年以上的运用控制技术优势,长达半世纪之久的IT技术,以及丰富的产品和实践经验,向智能制造、智慧城市、智慧能源、生命科学等多个领域提供IT咨询、行业解决方案、系统集成、定制开发、运维管理等服务,通过与客户的协创,致力于为中国社会创新作出贡献。
二、从医学角度总结并点评已问世的中医药大语言模型
(朱导小组会)
对于已问世的中医药大语言模型,笔者觉得这条“留言”点评最到位:“生的随机,死的模糊”。用“大模型幻觉”对抗“大世界玄学”。当然这篇主要目的是总结下目前的中医药大语言模型,了解下喂了这么资料后,从医学角度还能怎么提高大模型效果。
先来看看目前已问世的中医药大模型:
表:目前已问世中医药大语言模型一览
大模型 | 联合开发单位 | 部分特色功能 | |
---|---|---|---|
1 | 仲景 | 复旦大学、同济大学 | 中医方剂数据及诊断思维逻辑的推理 |
2 | 海河·岐伯 | 天津智图、天津中医药大学、现代中药高等实验室等 | 智能问诊、生成电子病历等 |
3 | 数智岐黄 | 华东师范大学、上海中医药大学、华东理工大学等 | 中医药知识智能问诊、健康咨询、中医药知识建构态交互 |
4 | 数智本草 | 天士力、华为云 | 发现天然药物,生成新方剂 |
5 | TCMLLM | 北京交通大学计算机与信息技术学院医学智能团队 | 实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务 |
6 | 神农中医药大模型 | 华东师范大学计算机科学与技术学院智能知识管理与团队服务 | 医疗问诊 |
7 | Huang-Di | 由南京大学信息管理学院及郑州大学人工智能学院合作完成 | 中医古籍知识问答 |
8 | 本草智库·中医药大模型 | 成都中医药大学、药数据圈、天府中药数据仓 | 中药知识提取与生成、中药重金属领域解决方案输出 |
9 | 盘古大模型 | 九方健策、华为云 | 药物研发、智慧医疗等 |
10 | “华佗”中医药大模型 | 室州市场监管、华为 | 药物研发、智慧医疗等 |
11 | “歧黄问道”大模型 | 太经中医院 | 临床治疗,中医养生调理方案等 |
12 | “讯飞星火”大模型 | 科大讯飞 | 辅助诊疗,健康咨询 |
13 | “聪宝素问”大模型 | 中医聪宝 | 辅助诊疗,诊后随访,疗效评估,健康管理 |
14 | “天河灵枢”大模型 | 国家超级计算天河中心、天津中医药大学等 | 量身定制针灸治疗方案 |
15 | 中医药横琴大模型 | 横琴安头智能 | 辅助诊疗,提供个性化治疗方案 |
先简单总结下模型:
1. 具体构建方法
- 各个模型使用预训练和微调策略进行构建,如“仲景”模型基于Qwen1.5-1.8B-Chat模型,通过在专有医疗数据集上的多次迭代训练,并严格设置prompt模板实现模型在中医领域的推理能力。
- 大多数模型,如"数智岐黄"和"数智本草",采用了预训练+检索增强生成的方式,同时结合了插件调用技术以实现特定功能。
2. 所使用的语料
- 这些模型广泛采用了中医经典文献、医学教科书、临床病历等作为核心语料。
- 例如,“数智岐黄”模型的语料包括《黄帝内经》、《伤寒杂病论》等1000余本中医古籍,以及相关中医药知识图谱,而“数智本草”结合了数千万条中药成分、靶点、专利等内容,确保涵盖了药物、方剂、病理等多方面信息。
3. 应用场景
- 这些大模型广泛应用于中医药知识问答、临床辅助诊疗、药物研发及健康管理等场景。
- 如“海河·岐伯”大模型基于古医书记载的场景模拟了中医问诊,为中医药数智化转型提供了支持;“天河灵枢”大模型则在针灸治疗方案个性化推荐方面发挥作用,进一步推动针灸领域的智能化发展。
现存的主要问题
申明:如果大模型是骗投资人钱,那当我什么都没说,这些大模型岁月静好!
从实际医学应用角度出发,以下问题要供同行考虑的,尤其是工科同行考量:
1. 高质量语料
这些模型在构建过程中,虽然广泛使用了中医典籍和临床文献,但缺乏严格的循证医学评估,也大量使用低质量的证据(见下金字塔)。循证医学强调通过系统性评估和科学实验证据验证治疗效果,而许多中医药大模型所使用的数据尚未经过现代循证医学的严格审查。因此,模型给出的诊疗建议可能未经过充分的科学验证,缺少临床随机对照试验的支持,导致其在临床应用中可靠性和有效性难以得到保证。最终就是“幻觉”+“垃圾结论” = 错上加错。
如果不想让大模型还要做META分析,那高质量的结论性语料主要得综合程度很高的循证证据,这个是非常耗费人力和财力的领域,是无数医学科研同行研究成果的结晶。那如何获得这些高质量的语料证据,这就是完全是“循证医学”的问题。
\2. 模型透明度与可解释性
目前中医药大语言模型在决策过程中往往缺乏透明度和可解释性,这使得模型给出的诊断或治疗建议变得难以理解和验证。特别是在推荐具体治疗方案时,模型是基于哪些数据和逻辑进行推理,医务人员很难获得详细解释。
因此,医生无法明确知道模型决策的依据和过程,也难以对模型的推荐进行合理性判断和干预。这种不透明性可能严重影响医务人员对模型结果的信任和接受度,进而限制模型在实际临床中的应用。尤其在医疗领域,医生对患者的治疗负有直接责任,如果无法解释诊断依据和治疗逻辑,医务人员可能倾向于不依赖模型的建议。这种情况不仅削弱了模型对医学实践的支持作用,也可能使模型的应用风险增加。
在中医药大语言模型甚至是医学大模型的开发中,需要特别关注提高模型的可解释性,让模型的推理和来源过程更加透明,以便医务人员能够理解和信任模型的建议,从而更有效地将其应用于患者的诊疗决策中。
3. 决策所提供的信息和内在逻辑
这些中医药大语言模型在构建时,可能忽视了医学中的一些重要内在逻辑。例如,在医学中,症状与病因的联系是通过长期积累的临床经验和系统性研究建立起来的,而这些模型可能无法有效理解和把握这种联系的因果关系。此外,疾病的诊断和治疗过程往往涉及多个复杂的因素,包括个体差异、并发症的存在、药物的交互作用等,而大模型的推理方式可能不具备足够的细致性,无法如医生一般整合多维度的信息做出精准的医疗决策。此外,医学中的许多概念是抽象和动态的,无法通过简单的文字描述完全传达,如机体的病理变化、疾病进展的过程、患者的整体健康状况等,这些方面在模型的训练和推理中可能缺乏深入体现,从而限制了模型在医学中的实用性。
从医疗决策角度来看,医学不仅需要考虑诊断的精确性,还需要评估不同治疗方案的风险、收益及患者特征。大模型在这方面往往缺乏细致的推理能力,尤其是在面对多种治疗方案时,难以权衡并给出个性化的建议。而医学决策的核心在于循证,需基于科学实验和临床数据,当前这些模型在循证医学方面仍存在明显不足,影响其应用于临床决策的安全性。
简单一句话结论
交互应答类专科医学大模型真要落地应用,还有一些路要走(但未必很长)。
三、大语言模型在医药健康领域的应用
(原创 松鼠nlp 松鼠NLP)
匹配患者与临床试验的大语言模型TrialGPT
作者: Qiao Jin, Zifeng Wang, Charalampos S. Flouda, Fangyuan Chen, Changlin Gong, Dara Bracken-Clarke, Elisabetta Xue, Yifan Yang, Jimeng Sun, Zhiyong Lu
发表日期: 2024-11-18
摘要:临床试验的患者招募具有挑战性。本文介绍了TrialGPT,这是一个端到端的框架,用于零样本患者实验对与大型语言模型的匹配试验。TrialGPT由三个模块组成:它首先执行大规模过滤以检索候选试验(TrialGPT-Retrieval);然后预测指标水平的患者资格(TrialGPT-Matching);并最终生成试验分数(TrialGPT-Ranking)。我们在三组183名超过了75000个试验注释的合成患者上进行了评估。TrialGPT-Retrieval可以使用不到6%的初始收集来召回90%以上的相关试验。对1015个患者指标对的人工评估表明,TrialGPT-Matching的准确率为87.3%,解释准确性接近专家表现。TrialGPT-Ranking得分与人类判断高度相关,在排名和排除试验方面比最佳竞争模型高出43.8%。此外,我们的用户研究表明,TrialGPT可以将患者招募的筛查时间缩短42.6%。总体而言,TrialGPT为患者与试验的匹配提供了有希望的机会。
论文链接: https://www.nature.com/articles/s41467-024-53081-z
中医大语言模型TCMChat
作者:Yizheng Dai, Xin Shao, Jinlu Zhang, Yulong Chen, Qian Chen, Jie Liao, Fei Chi, Junhua Zhang, Xiaohui Fan**
发表日期: 2024-11-27
摘要: 突破性的大型语言模型(LLMs)与对话系统的结合在医学领域越来越普遍。尽管最近提出了几个中医大语言模型,但仍有很大的研究空间。本文因此提出了TCMChat,一种基于大规模预设计中医文本知识和中医问答数据集的生成式中医语言大模型。详细地说,我们首先通过文本挖掘和人工校验等方式针对六个中医应用场景编译了一个定制训练集,包括中医知识库、选择题、阅读理解题、实体提取、医学病例诊断和方药推荐。之后,我们将百川2-7B作为基座模型,进行预训练和监督式微调。基准数据集和案例的测试结果进一步证明了TCMChat与现有模型相比的优越性能。
论文链接 https://www.sciencedirect.com/science/article/pii/S1043661824004754
模型链接: https://xomics.com.cn/tcmchat
四、盘点已问世的15种中医药大语言模型
(原创 小迪说AI 小迪说AI)
中医药作为中国传统科学的瑰宝,其传承与创新发展在新时代中国特色社会主义事业中占据重要地位。随着大语言模型技术的蓬勃发展,中医药学迎来了数字化和智能化转型的新机遇。在此,我们盘点已公开的中医药大语言模型,以展现其在中医药领域的应用与潜力。
一、仲景大模型
“仲景”大模型是受古代中医学巨匠张仲景智慧启迪,专为传统中医领域打造的预训练大语言模型。由复旦大学张文强教授、王壟博士后等人共同指导,该项目开源了针对Qwen1.5-1.8B-Chat模型的微调权重,能够在一张Tesla T4显卡上实现高速推理。通过在专有医疗数据集上的多次迭代训练,该模型在中医药领域展现出较强的理解和生成能力。它借鉴人类记忆知识的过程,采用专业表格和特定prompt模板,能够生成包括患者治疗故事、诊断分析、诊疗方案制定等多个场景的内容,促进了模型对中医方药数据及诊断思维逻辑的推理能力。
二、海河·岐伯大模型
2024年1月,天大智图(天津)科技有限公司推出了“海河·岐伯”大模型。该模型命名源自“医术之祖”《黄帝内经》,以中医典籍为核心,抽取四库全书医家类资料、传统中医文献与权威中医药学资料的文本素材,形成完整的知识图谱。通过真实还原古医书中的问诊场景,“海河·岐伯”大模型为现代中医药学提供了新一代大语言模型支持,助力传统行业的数智化转型和信息化发展。
三、数智岐黄大模型
2024年3月,在“AI 赋能下的未来药学产学研发展论坛”大会上,华东师范大学等单位联合发布了“数智岐黄”中医药大模型。该模型以《黄帝内经》《伤寒杂病论》等中医典籍及大量古籍和中医药文献为数据基础,构建高质量中医药知识图谱,涵盖方剂、症候、中药材、中药成分、靶点和疾病等多方面信息。通过预训练和微调等技术,实现中医药领域知识智能问答、健康咨询和中医药知识图谱动态交互等功能,助力中医药创新研究和人才培养。
四、数智本草大模型
在2024年5月的数智赋能大健康产业新质生产力暨第四中医药国际发展论坛上,天士力医药发布了“数智本草”大模型。该模型基于华为澎湃算力与向量库等工具,结合中医药海量文本数据预训练,集守正、创新、产业化三大类海量数据于一体。拥有380亿参数量的大模型,能够更好地帮助研究者完成中医药理论证据的挖掘和总结,推动中药产业创新研发。
五、TCMLLM大模型
TCMLLM是由北京交通大学计算机与信息技术学院医学智能团队开发的中医药大语言模型项目。该项目旨在通过大模型方式实现中医临床辅助诊疗和中医药知识问答等任务。目前,针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐指令微调大模型TCMLLM-PR。通过整合多个数据来源,构建了包含68k数据条目的处方推荐指令微调数据集,并在ChatGLM大模型上进行大规模指令微调,取得了显著成效。
六、ShenNong-TCM大模型
ShenNong-TCM大模型由华东师范大学团队完成,旨在推动LLM在中医药领域的发展和落地。该模型以LlaMA为底座,采用LoRA微调得到,并以中医药知识图谱为基础,通过自指令方法调用ChatGPT得到大量围绕中医药的指令数据。ShenNong-TCM大模型提升了LLM在中医药方面的知识与回答医学咨询的能力,推动了中医药的传承与发展。
七、黄帝大模型
黄帝大模型源自中医古籍《黄帝内经》,由南京大学信息管理学院及郑州大学人工智能学院合作完成。该模型在Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材数据和在线中医网站数据,通过有监督微调,使模型具备中医古籍知识问答能力。黄帝大模型的出现,为中医药领域的研究和应用提供了新的工具和方法。
八、本草智库大模型
2024年4月,全球首个中药全产业链大模型——本草智库在第二届“千种本草基因组计划”研讨会上发布。该模型基于成都中医药大学首席教授陈士林团队本草基因组学的研究成果构建,汇集了海量中药材基原物种基因信息、中药成分与靶点互作信息等核心数据。通过指令微调和检索增强生成技术,本草智库大模型具备中药知识提取与生成、中药垂直领域解决方案输出等功能,有助于提升中药基础研究和产业整体效率及质量水平。
九、华为中医药大模型
2024年1月,浙江九为健康科技股份有限公司与华为云计算技术有限公司联合推出了盘古中医药大模型。该模型基于深度学习技术,针对中医药领域进行设计和优化,融合了中医经典文献、中药方剂、药材信息、临床案例等多种类型的数据。盘古中医药大模型能够深入理解中医药的语言和文化,为中医药的研究、开发和应用提供强大支持,展现了传统中医药与现代科技深度融合的广阔前景。
十、华佗中医药大模型
亳州市与华为公司合作建设了华佗中医药大模型,旨在打造全球首个中医药产业大模型。该模型以华佗中医药大模型创新中心、产业交易平台、产业数据平台、产业大模型服务平台等“一中心三平台”为构建基础,整合中医药产业资源,推动中医药产业的创新和升级。华佗中医药大模型的建设,将有助于落实国家人工智能+行业战略目标,赋能中医药行业提质增效。
十一、岐黄问道大模型
2023年7月,南京大经中医药信息技术有限公司发布了“岐黄问道”大模型。该模型基于中医知识和数据,能够根据用户提供的疾病、症状、体征等信息,给出中医的诊断和治疗方案。岐黄问道大模型包括临床诊疗大模型和中医养生调理大模型等多个子模型,旨在实现中医临床诊疗和健康养生的智能化,传承和发展中医药文化。
十二、讯飞星火中医大模型
2024年6月,科大讯飞发布了讯飞星火大模型V4.0,并在医疗领域推出了讯飞星火中医大模型。该模型在海量知识问答、复杂语言理解、专业文书生成等方面展现出强大能力,全面超越GPT-4 Turbo。讯飞星火中医大模型能够为用户提供精准的中医药知识和诊疗建议,助力中医药的现代化和智能化发展。
十三、聪宝素问大模型
2023年8月,全国首个公开发布的中医GPT——“聪宝素问”在第九届中国中医药信息大会上正式上线2.0版本。该模型以《黄帝内经》为灵感来源,具备深厚的中医理论知识,已进入临床应用阶段。聪宝素问大模型可广泛应用于康养机构、药店诊所、文旅养生等领域,为用户提供个性化的中医药服务。
十四、天河灵枢大模型
2024年4月,在第三届中医药高质量发展大会暨新时代中医药高质量发展战略研讨会上,“天河灵枢”大模型正式发布。该模型以中医经典名著和针灸临床循证证据库为基础,经过大量循证证据训练,具备深厚的中医理论知识。天河灵枢大模型能够为用户提供精准的针灸治疗建议,作为中医智慧助手助力健康养生。
十五、中医药横琴大模型
在2023年12月的横琴粤澳深度合作区中医药科技创新大会上,中医药横琴大模型正式启动。该模型汇集海量中医药数据,包含中医知识文本和中医院的数字化病例,依托高可信中医诊疗知识库辅助医生精准诊疗。同时,会上还启动了中药新药智能自动化融合创新平台,通过工程化开发实现中药成分获取、结构表征等全实验流程一站式解决方案。
以上盘点的中医药大语言模型各具特色,展现了中医药与现代科技融合发展的广阔前景。这些模型不仅提升了中医药的研究和应用水平,也为传统中医药的传承与创新注入了新的活力。
五、盘点已问世的中医药大语言模型
(原创 白海龙,王育伟 天然药物发现和计算药物设计)
汇报人:研究生二年级 白海龙
中医药是中国传统科学的瑰宝,传承创新发展中医药是新时代中国特色社会主义事业的重要内容。现如今,为推动中医药的现代化、智能化发展,多个中医药大模型已经问世。随着大语言模型技术的蓬勃发展,中医药学迎来了数字化和智能化转型的新机遇。在此,与大家一起盘点已公开的中医药大语言模型。
表1.中医药大语言模型汇总
首个中医药大语言模型—‘‘仲景’’
‘‘仲景’’是受古代中医学巨匠张仲景深邃智慧启迪,专为传统中医领域打造的预训练大语言模型。由复旦大学张文强教授、王壟博士后等人共同指导。
图1.由Bing画图输出与人类提示相结合生成的CMLM-ZhongJing的Logo
此项目开源了针对Qwen1.5-1.8B-Chat模型的微调权重,在一张Tesla T4显卡即可实现高速推理。通过在专有医疗数据集上进行多次迭代训练确保模型在中医药领域具备较强理解和生成能力。此外,‘‘仲景’’借鉴人类记忆知识的过程,采用专业表格,借助大语言模型的语言表征能力,严格设置特定的prompt模板,使得模型基于中医妇科方药表格数据生成包括患者治疗故事、诊断分析、诊断治疗预期结果、处方功用、互动故事、患者治疗故事、叙事医学、舌脉象、诊疗方案制定、批判性思维、随访、处方、药物用量、个例研究、真实世界问题、病因病机等15个场景, 以促进模型对中医方药数据及诊断思维逻辑的推理能力。
图2.人类医生参与的多任务治疗行为分解指令构建策略。
‘‘仲景’’旨在阐明中医博大精深之知识,传承古代智慧与现代技术创新,最终为医学领域提供可信赖和专业的工具。(https://github.com/pariskang/CMLM-ZhongJing)
‘‘海河·岐伯’’
2024年1月,天大智图(天津)科技有限公司的中医药大语言模型——**“海河·岐伯”**大模型开放内测。
“海河·岐伯”大模型的命名源于“医术之祖”——《皇帝内经》,该大模型系统以中医典籍为核心,抽取四库全书医家类资料、传统中医文献与权威中医药学资料的文本素材,以中医药领域的基本概念、知识、理论、疾病、药物、方剂等为节点,形成完整的知识图谱。“海河·岐伯”通过大模型真实还原古医书中记载的崎伯问诊场景,为现代中医药学提供了新一代大语言模型。
图3.构建Qibo的总体流程图.
作为面向中医药领域的大模型,“海河·岐伯”为传统行业的数智化转型和信息化发展赋能。
‘‘数智岐黄’’
2024年3月,华东师范大学举办的 “AI 赋能下的未来药学产学研发展论坛” 大会上发布了**“数智岐黄”中医药大模型**。该模型是由华东师范大学、 上海中医药大学、华理工大学、海军军医大学等多家单位及全国重点实验室联合开发。
“数智岐黄”中医药大模型以《黄帝内经》《伤寒杂病论》等中医典籍及1000多本古籍和中医药文献为核心数据基础,以高质量中医药知识图谱为知识库,涵盖超过8万种方剂、超过2000种症候、超过9000种中药材、超过4万种中药成分、超过1.8万种靶点、超过2000种疾病,采用预训练和微调并结合检索增强生成和插件调用等技术,通过方剂推荐、中药性质解读、症候辅助诊断,实现中医药领域知识智能问答、健康咨询、中医药知识图谱动态交互三大核心功能,助力中医药创新研究和人才培养、临床辅助诊疗和中医养生保健,推动中医药文化传承创新发展。
‘‘数智本草’’
在2024年5月召开的数智赋能大健康产业新质生产力暨第四中医药国际发展论坛上,天士力医药发布了《数智中药——现代中药的数智化发展白皮书》,紧接着重磅推出了聚焦中药产业创新研发的“数智本草”大模型。“数智本草”大模型,是基于华为澎湃算力与向量库等先进工具,由天士力与华为云在华为盘古大语言模型和盘古药物分子大模型的基础上联合开发的中医药语言大模型和计算大模型。
目前大模型集守正(1000种以上古籍及翻译,9万首以上方剂,4万个以上中成药等)、创新(4000万份以上文献摘要,300万种以上天然产物,2万个以上靶基因通路信息等)、产业化(10万个以上临床方案,16万个以上中药专利以及药典政策指南等)三大类海量数据。“数智本草”语言大模型,拥有380亿参数量,基于中医药海量文本数据预训练,结合向量库检索强化,以及中药研发多场景的微调, 能够更好地帮助研究者完成中医药理论证据的挖掘和总结。
(https://tcmaidd.tasly.com/ui/#/login)
TCMLLM
TCMLLM由北京交通大学计算机与信息技术学院医学智能团队开发的中医药大语言模型项目,旨在通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐指令微调大模型TCMLLM-PR。研发团队整合了8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《中医妇科学》和《中医儿科学》、2020版中国药典、中医临床经典医案数据、以及多个三甲医院的涵盖肺病、中风病、糖尿病、肝病、脾胃病等多病种的临床病历数据,构建了包含68k数据条目(共10M token)的处方推荐指令微调数据集,并使用此数据集,在ChatGLM大模型上进行大规模指令微调,最终得到了中医处方推荐大模型TCMLLM-PR。(https://github.com/2020MEAI/TCMLLM)
图4.统计信息
ShenNong-TCM-LLM
ShenNong-TCM由华东师范大学团队完成,旨在推动LLM在中医药领域的发展和落地,提升LLM的在中医药方面的知识与回答医学咨询的能力,同时推动大模型赋能中医药传承。
该项目在2023年6月开源了中文中医药大模型——ShenNong-TCM,模型是以LlaMA为底座,采用LoRA (rank=16)微调得到。ShenNong-TCM以中医药知识图谱为基础,采用以实体为中心的自指令方法entity-centric self-instruct,调用ChatGPT得到11w+的围绕中医药的指令数据。
(https://github.com/michael-wzhu/ShenNong-TCM-LLM)
‘‘Huang-Di’’
黄帝源自中医古籍**《黄帝内经》,由南京大学信息管理学院及郑州大学人工智能学院**合作完成。在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材数据:收集“十三五”规划所有中医教材共22本;在线中医网站数据:爬取中医世家、民间医学网等在线中医网站及知识库。训练出一个具有中医知识理解力的预训练语言模型(pre-trained model),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。
(https://github.com/Zlasejd/HuangDI)
图5.Huang-Di模型应用示例
‘‘本草智库’’——中医药大模型
2024年4月12日,由成都中医药大学、北京百度网讯科技有限公司、太极集团有限公司、天府中药城等单位联合开发的全球首个中药全产业链大模型——本草智库在第二届“千种本草基因组计划”研讨会上发布。
本草智库大模型基于中国工程院院士、成都中医药大学首席教授陈士林团队本草基因组学的研究成果构建。本草智库汇集了1500万条中药材基原物种基因信息、3000余万条中药成分与靶点互作信息、400余万个化合物等中药研究底层核心数据,形成了覆盖中药全产业链的2000余万个实体和超20亿个关系对知识图谱,让中药材有了专属“基因身份证”。
该模型以千亿级参数规模文心大模型为支撑,通过指令微调和检索增强生成技术,具备中药知识提取与生成、中药垂直领域解决方案输出、中药产业一站式数字化服务三大功能,实现了中药研究底层核心数据与中药全产业链关键环节有机结合。这一模型有助于提升中药基础研究和产业整体效率及质量水平,可为中药全产业链各关键环节提供精准决策支持,从而优化生产流程,提高产品质量,确保药品安全
图6.本草智库·中医药大模型发布会
‘‘盘古’’大模型
华为中医药大模型于2024年1月23日正式亮相。浙江九为健康科技股份有限公司与华为云计算技术有限公司在华为深圳总部签署了中医药大模型全面深化合作协议,共同推出了这一创新性的中医药大模型。该模型的出现标志着传统中医药与现代科技的深度融合,为中医药领域的研究、开发和应用提供了新的思路和方法。
盘古中医药大模型是一个基于深度学习技术的大规模预训练模型,专门针对中医药领域进行设计和优化。该模型利用海量的中医药数据进行训练,能够深入理解中医药的语言和文化,为中医药的研究、开发和应用提供了强大的支持。
在数据方面,盘古中医药大模型融合了中医经典文献、中药方剂、药材信息、临床案例等多种类型的数据,形成了一个庞大而全面的中医药知识库。这些数据不仅涵盖了中医药的各个方面,还经过了精心的清洗和标注,确保了数据的质量和准确性。
在技术方面,盘古中医药大模型采用了深度学习中的Transformer架构,这是一种具有强大特征提取和上下文理解能力的神经网络结构。通过大规模的预训练,该模型能够自动学习到中医药领域的复杂知识和模式,为后续的应用提供了坚实的基础。
在应用方面,盘古中医药大模型展现出了广阔的前景和潜力。首先,在中药方剂推荐方面,该模型能够根据患者的症状和体质,智能推荐个性化的中药方剂,提高了中医治疗的精准度和效果。其次,在药材质量控制方面,该模型能够通过对药材的性状、产地、采收时间等信息的分析,辅助鉴别药材的真伪和优劣,确保了药材的质量和安全。此外,在病症辅助诊断、新药研发以及健康管理等方面,华为中医药大模型也都能够发挥重要的作用。
盘古中医药大模型的出现,不仅对中医药领域产生了深远的影响,也为传统医学与现代科技的融合提供了新的思路和方法。通过该模型的应用,我们能够更加深入地理解中医药的精髓和智慧,推动中医药的现代化和国际化进程。同时,该模型也为其他传统医学领域与现代科技的融合提供了有益的借鉴和参考。
图7.‘‘九为’’‘‘华为’’‘‘联手构建’’盘古中医药大模型
*‘‘华佗’’中医药大模型*
亳州,中国药都,华佗是东汉末年的杰出医学家,其故乡正是现在的亳州市,此次亳州与华为公司合作建设华佗中医药大模型。亳州市与华为公司强强联合,充分利用华为算力、算法优势,亳州中医药政策、区域、资源、数据优势,打造首个中医药产业大模型——华佗中医药大模型。
根据《华佗中医药大模型建设方案》,亳州市将构建全球首个中医药产业大模型,落实国家人工智能+行业战略目标,赋能中医药行业提质增效。建设华佗中医药大模型创新中心,打造世界中医药之都、全国中医药产业高地、中医药进入国际市场的“桥头堡”。
《华佗中医药大模型建设方案》 明确:以华佗中医药大模型创新中心、产业交易平台、产业数据平台、产业大模型服务平台等“一中心三平台”构建华佗中医药产业大模型,整合中医药产业资源。围绕生产、贸易、服务、管理,以新产业、新模式、新动能为核心完善产业布局,汇聚亳州中医药数据,明确中药、中医价值场景和需求,持续发展“人工智能+”融合新业态,推动亳州中医药产业的创新和升级。
‘‘岐黄问道’’中医药大模型
2023年7月28日下午,由国内数智中医行业的领军企业南京大经中医药信息技术有限公司研发的“岐黄问道·大模型”在南京江北新区产业技术研创园隆重发布。来自医疗界、技术界、投资界、中医药与大健康产业界以及包括新华社、人民日报在内的新闻界的约100位嘉宾出席了发布会。
岐黄问道大模型是一个基于中医知识和数据的人工智能模型,由大经中医研发和发布。它可以根据用户提供的疾病、症状、体征等信息,给出中医的诊断和治疗方案,包括中药、食疗、茶饮、推拿、艾灸等多维度的养生调理建议。它的目的是实现中医临床诊疗和健康养生的智能化,传承和发展中医药文化。
岐黄问道大模型包括三个方向的子模型:
1.基于已确诊疾病的临床诊疗大模型;
2.仅仅基于症状、体征的临床诊疗大模型;
3.中医养生调理大模型。
岐黄问道大模型是国内首个以中医为核心的垂直领域大模型,也是年轻人养生的第一个大模型。它有助于中医药数智化发展,也有助于普及中医药知识和服务,提高人们的健康水平和生活质量。
图8.岐黄问道·大模型
‘‘讯飞星火’’中医药大模型
2024年6月27日,科大讯飞正式对外发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。
随着新版本的发布,讯飞星火V4.0七大核心能力全面升级,在8个国际主流测试集中排名第一,整体超越GPT-4 Turbo,领先国内大模型。现场刘庆峰分享的数据显示,在海量知识问答、复杂语言理解、专业文书生成、诊断治疗推荐、多轮交互以及多模态交互等方面,讯飞星火医疗核心能力全面超过GPT-4 Turbo和GPT-4o。
刘庆峰称,当前,星火APP下载量已经达到了1.31亿,涌现出一批用户喜爱的应用助手。在星火大模型的加持下,部分场景下的智能硬件销量同比增长70%+,月均使用时次数超过4000万。另外,星火V4.0大模型是基于全国首个国产万卡算力集群「飞星一号」训练而成,意味着完全自主可控。
图9.讯飞星火中医大模型
‘‘聪宝素问’’大模型
2023年8月12日,全国首个公开发布的中医GPT—“聪宝素问”,在第九届中国中医药信息大会上正式上线2.0版本。
“聪宝素问2.0”由聪宝科技创始人顾高生发布,中国中医药信息学会会长、国家中医药管理局原副局长吴刚,中国中医药信息学会副会长兼执行秘书长朱佳卿,华润数科华润云事业部行业生态部专家邓通参与发布仪式。
而中医奠基之作《黄帝内经》的成书体裁,与GPT有着惊人的相似之处:整本书是以问题为牵引,通过黄帝和岐伯的对话来解析中医。黄帝就是“提示词工程师”,与岐伯“连续对话”,产生“生成式内容”。
《黄帝内经》 由《素问》《灵枢》两卷组成,起名为“聪宝素问”,印证了这段跨越千年的机缘。
目前,“素问 GPT”已正式进入临床应用阶段,可广泛应用于康养机构、药店诊所、文旅养生,药膳餐饮等众多领域,形成对应的服务解决方案。未来,“素问GPT”还将开放更多应用场景,并提供新场景的订制服务。
‘‘天河灵枢’’大模型
2024年4月10日,在第三届中医药高质量发展大会暨新时代中医药高质量发展战略研讨会上,由国家超级计算天津中心联合现代中医药海河实验室及天津中医药大学、天津大学、信创海河实验室等团队合作研发的“天河灵枢大模型”装置正式发布。‘‘天河灵枢大模型”的命名来源于中国传统医学著作**《灵枢》,与《素问》九卷合称《黄帝内经》。“天河灵枢大模型”是基于中医经典名著和针灸临床**循证证据库以及中医循证知识图谱等专业数据,这是一款面向中医针灸领域的专业大模型。
“天河灵枢大模型”学习了上百本中医经典,经过上万篇循证证据训练,具备深厚的中医理论知识,可作为中医智慧助手为用户提供精准且专业的解答。无论是对中医理论的深入探讨,还是对健康问题的细致剖析,“天河灵枢大模型”均能迅速给出详尽且深入的回应。当用户寻求针灸治疗建议时,“天河灵枢大模型”能够迅速分析用户的病情,提出包括针刺、艾灸、按压等多种针灸治疗方法的个性化建议。
图11.‘‘天河灵枢’’大模型
*中医药横琴大模型*
2023年12月28日,中医药广东省实验室第一届学术委员会第一次会议暨首届横琴中医药科技创新大会在横琴粤澳深度合作区举行。会上,正式启动了中医药横琴大模型 和中药新药智能自动化融合创新平台。
据介绍,中医药横琴大模型汇集海量中医药数据,包含100亿字符的中医知识文本以及中医院的数字化病例,依托高可信中医诊疗知识库,辅助医生精准诊疗,提供个性化治疗方案。中药新药智能自动化融合创新平台通过工程化开发,基于机器人与自动化技术实现中药成分获取、结构表征、生物活性测定等全实验流程一站式解决方案。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!