Disc-MedLLM由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由 DiscMedSFT 数据集基于 Baichuan13BBase 指令微调得到,有效地对齐了医疗场景下的人类偏好。项目地址:https://github.com/fudandisc/discmedllm。
一、基本特点
1.模型基础:DISC-MedLLM以baichuan13bbase作为基础模型,目前其模型权重可以从Hugging Face仓库直接下载,也可以通过demo代码自动获取。
2.数据训练:为训练DISC-MedLLM,研究人员构建了一个高质量的数据集DISCMedSFT,该数据集包含了超过47万个不同的示例,这些示例来源于现有的多个医疗数据集,并采用目标导向策略,通过选择性地重构数据集,使其能够帮助语言模型获取医学领域知识、对齐人类偏好行为模式以及捕捉真实世界在线医疗对话的分布情况。
3.模型特点 :
知识密集且可靠:经过大量专业医疗数据训练,能够为用户提供准确、可靠的医疗知识和信息,可有效应用于各种医疗咨询和治疗询问场景,为用户提供高质量的健康支持服务。
多轮询问能力:可以在多轮对话中持续理解和生成准确、连贯的回复,更好地模拟真实的医患交流场景,满足用户在不同阶段和不同问题上的需求。
符合人类偏好:通过对数据的精心筛选和处理,使模型的输出更符合人类的语言习惯和思维方式,提高了模型回复的可接受性和实用性。