摘要
PatientSeek 是首款开源的MED-LEGAL医学推理 AI 模型,专注于疾病诊断和法律医学关联分析,结合医疗和法律领域的深度推理能力,高效、安全、经济地支持复杂的专业需求,支持本地运行并优先保护数据隐私,性能优于其他开源模型且成本更低。
WhyHow.AI
关键要点
-
开源首创:PatientSeek 是首款专为 MED-LEGAL 工作流设计的 AI 模型,可处理医疗和法律数据的复杂推理问题
-
**核心价值:**提升疾病诊断和法律医学工作流的关联分析能力,支持敏感数据的本地、私密和安全处理
-
技术优势:基于DeepSeek R1微调开发,使用CometML等先进工具,支持离线操作以保障数据安全和隐私 .
基于DeepSeek R1微调开发,使用CometML等先进工具,支持离线作以保障数据安全和隐私 . -
行业需求导向:专注于医疗条件与外部事件因果关系的推导,满足法律审查要求并提升人类专家效率 .
-
高性价比:运算成本显著降低,处理复杂查询的费用不到 $0.05,比 GPT-4o1便宜 27 倍 .
-
性能卓越:基础临床任务如病情检测的准确性达 90%,在复杂任务(病患总结、治疗计划生成)中超越主流开源模型 .
-
协作而非替代:通过自动化分析重复任务,增强人类医疗和法律专业人士的工作,而非取而代之 .
-
专注领域适配:针对复杂推理任务进行了专门优化,能有效解决通用 AI 模型难以应对的专业问题 .
-
**未来计划:**WhyHow.AI计划继续开发更多支持MED-LEGAL工作流的模型 .
相关链接:
https://huggingface.co/whyhow-ai/PatientSeek
要运行此模型,可以从 https://huggingface.co/whyhow-ai/PatientSeek 下载它,并按照以下说明使用:https://unsloth.ai/blog/deepseek-r1
https://huggingface.co/unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF
我们很高兴推出 PatientSeek,这是一个开源的 MED-LEGAL 推理模型,在最大的可访问医疗记录数据集之一上进行训练,可以在本地安全地运行。
我们在最大的可访问患者记录数据集之一上微调了 DeepSeek R1 模型,用于医学总结和问答。我们以符合 MED-LEGAL 空间需求的特定方式专门预处理了数以万计的患者记录,并利用 DeepSeek 模型套件的推理功能来复制如何发现患者记录与外部事件之间的相关性。我们利用 CometML 进行数据集存储和实验跟踪,利用 Unsloth 和 HuggingFace TRL 进行微调,并利用 AWS Sagemaker(由 NVIDIA Inception startu p 计划慷慨提供给我们的积分资助)来生成此模型。
此模型的商业价值
在“MED-LEGAL”领域(定义为涉及法律和医疗保健考虑因素的行业和工作流程)中,我们希望优化的两个关键方面是提高以下方面的最新技术:
-
疾病和诊断识别
-
相关性和因果关系的假设检验
我们构建这个模型的价值和原因是因为我们意识到 “MED-LEGAL” 工作流程通常必须进行许多关联和关联,特别是围绕需要符合法律标准的医疗保健因果关系问题,这些问题在传统医疗工作流程或传统法律工作流程中不存在。鉴于我们团队在法律和医疗保健方面的独特背景,我们一直在与医疗专业人员一起帮助收集和预处理这些数据,而像 DeepSeek 这样强大的开源推理模型的出现恰逢其时。
现在,可以与必要的人类专业知识合作完成一套以智能方式编排以支持这些从业者重复任务的模型和代理。例如,快速的患者病史或有关糖尿病药物使用的问题可以为实时患者对话提供必要的上下文,并且模型中的相关推理可以突出显示并非立即显而易见的事物。
为什么是现在:随着 DeepSeek r1 的发布,以及自动推理的广泛商业接受和采用,我们可以开始使用数据来监督我们想要的方向进行推理。此外,模型的通用功能不需要扩展,而是需要更加“磨练”,以最能支持从业者的方式做出响应和推理。通过这种方式,我们可以确信,随着我们扩展特定模型和Agent套件,它们将最适合所需的任务。
通过这个模型,我们优化了一个足够小的模型,该模型可以离线、本地、私密和安全运行,这对于处理敏感患者数据的组织至关重要。我们将 O1 作为准确性的同类基准,并表明尽管 DeepSeek 的成本降低了 30 倍,并且能够在私有的本地环境中运行,但我们的性能与 O1 一样好或更好。
数据基础设施是性能的关键解锁
微调不是将随机数据转储到模型中,然后收工。DeepSeek 的存在和进步是基于刻意构建数据以提高性能的理念,这是我们创建模型来解决业务问题的态度的一部分。
很少以用于微调的格式收集数据,并且需要进行预处理以适应反映业务目标的格式。此外,不同的模型架构和模型类型(instruct、SFT 等)需要不同的格式(一个很好的参考是 Unsloths 数据集 101,此处:https://docs.unsloth.ai/basics/datasets-101)。由于这是对推理模型的微调,因此我们需要每个模型都有很多示例,具有一致的格式和各种答案。这种预处理的价值不容低估,尤其是因为正确处理数据可以使组织与最新的模型架构保持同步。
我们打算构建一套模型,旨在利用最新的推理发展,并使其适应特定的任务和用例。这些模型将有助于完成标准任务,如相关性分析、医学知识图谱创建、实体提取、推理、采取行动、对话和许多其他任务,为代理架构提供动力。我们的训练集不包含 PII,并且是以合规和商业的方式创建的。
模型评估
我们以可以在本地安全地运行的流行通用模型和 O1 进行基准测试,这些模型不能在本地或私人运行,但代表了那些只关心准确性(而不是成本或隐私)的人的最新技术。
我们的评估证明了 PatientSeek 在不同医疗任务中的专业能力,在复杂的医疗推理方面显示出特别的优势。虽然所有模型在提取患者人口统计数据等基本任务上都表现良好(准确率从 89.7% 到 97.8% 不等),但随着任务复杂性的增加,PatientSeek 表现出越来越大的优势。
在基本临床任务(如病情检测和生命体征分析)中,PatientSeek 达到了 ~90% 的准确率,优于其他开源模型,同时保持了 O1 水平的性能。这一优势在复杂的医疗任务(如生成患者摘要和治疗计划)中变得更加明显,其中 PatientSeek 保持 ~90% 的准确率,而其他模型则表现出明显的性能下降。在复杂任务中,相对于 O1 和高性能开源模型的优势凸显了 PatientSeek 的专业医疗能力,这是通过对医疗文档和临床工作流程的集中培训以及专门微调的医疗 QA 实现的。
复杂推理任务
基本任务
这些结果表明,虽然通用语言模型可以充分处理基本的医疗任务,但像 PatientSeek 这样的专业模型为更复杂的推理过程和医疗应用程序提供了巨大的好处。这对于寻求复杂医疗文档和分析任务的可靠自动化的提供商尤其重要。
即使对于更基本的任务,PatientSeek 也明显优于其他本地运行的模型,并且与 O1 相比具有竞争力,尤其是当我们考虑到成本和本地运行的能力时。相比之下,DeepSeek R1 作为 API 比 O1 少大约 27 倍。
在我们的案例中,对于 PatientSeek 来说,它要便宜得多。我们在 AWS 上托管了 DeepSeek 模型,每个基本问题(30k 输入,2k 输出)的成本为 <0.01 美元,每个更复杂的问题仍然成本为 <0.05 美元,即使使用 r1 的详细推理输出也是如此。我们还通过 Ollama 在 M2 Mac 上运行系统,它在功能上是免费的。
PatientSeek 是第一个开源的、本地运行的 R1 推理模型,该模型在患者记录上进行了微调,该模型是公开可用的,并且在法律医学领域具有人类水平的理解能力。随着我们继续开发支持 MED-LEGAL 工作流程的模型和构建产品,为了快速了解患者的病史或在患者特定的因果之间建立相关关联,我们将更新和调整最新模型,以适应这些从业者遇到的最相关问题。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈