LLM for Medical
文章平均质量分 68
本专栏是LLM 在医学中应用的相关论文,专栏中部分文章为完整翻译,大多是摘要和结论的翻译,后续会完善所有内容翻译,订阅请注意!!!
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic
大型语言模型 (LLM) 推动了医学人工智能 (AI) 领域的发展。但是,LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成 (RAG) 通过集成外部数据源来缓解这种情况。以前的 RAG 系统使用预先组装的固定数据库,灵活性有限,而我们已经开发了放射学 RAG (RadioRAG) 作为端到端框架,可以从权威放射学在线资源实时检索数据。RadioRAG 使用专用的放射学问答数据集 (RadioQA) 进行评估。原创 2024-11-01 14:04:48 · 14 阅读 · 0 评论 -
Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note
GPT-4 和 Gemini 等专有大型语言模型 (LLM) 在临床文本摘要任务中表现出有前途的能力。但是,出于患者数据隐私和计算成本的考虑,许多医疗保健提供商更喜欢使用小型的本地托管模型,而不是外部通用 LLM。本研究为开源 LLaMA-2 130 亿参数模型提出了一个全面的领域和任务特定适应过程,使其能够从门诊医患对话中生成高质量的临床记录。我们的流程包括持续的预训练、监督式微调以及来自 AI 和人类反馈的强化学习。原创 2024-10-19 19:54:37 · 90 阅读 · 0 评论 -
OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models
近年来人工智能的进步,如大型语言模型(LLMs),激发了人们对基因组基础模型(GFMs)突破的期望。自生命进化之初就隐藏在各种基因组中的自然密码,通过基因组建模对人类和生态系统的影响具有巨大的潜力。最近在GFM方面的突破,如Evo,吸引了对基因组建模的大量投资和关注,因为它们解决了长期存在的挑战,并将计算机基因组研究转化为自动化、可靠和高效的范式。在基因组学连续技术革命的繁荣时代,GFM研究面临两大挑战:缺乏GFM基准工具和缺乏用于多种基因组学的开源软件。原创 2024-10-17 09:30:00 · 187 阅读 · 0 评论 -
Answering real-world clinical questions using large language model based systems
由于缺乏相关和值得信赖的文献,以及难以将针对特定患者的现有研究置于背景中,指导医疗保健决策的证据往往受到限制。大型语言模型 (LLM) 可以通过总结已发表的文献或根据真实世界数据 (RWD) 生成新研究来潜在地解决这两个挑战。我们评估了 5 个基于 LLM 的系统回答 50 个临床问题的能力,并让 9 名独立医生审查了回答的相关性、可靠性和可操作性。原创 2024-10-15 14:09:33 · 96 阅读 · 0 评论 -
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi
背景和目的:本研究评估了胃肠病学中大型语言模型(LLMs)和视觉语言模型(VLMs)的医学推理性能。方法:我们使用了300个胃肠病学委员会考试式的多项选择题,其中138个包含图像,以系统地评估模型配置和参数的影响,并利用GPT-3.5提示工程策略。原创 2024-10-10 09:00:00 · 168 阅读 · 0 评论 -
Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Repor
背景:由于劳动密集型的结构化和叙事式报告,结构化放射学报告仍然不发达。深度学习,特别是像GPT-3.5这样的大型语言模型(LLM),为用自然语言自动构建放射学报告提供了希望。然而,尽管有报道称LLM在英语以外的语言中效果较差,但它们的放射学性能尚未得到广泛研究。目的:本研究旨在调查基于使用GPT3.5 turbo(GPT3.5)的放射学报告的TNM分类的准确性,以及日语和英语多语言LLM的实用性。材料和方法:利用GPT3.5,我们开发了一个从癌症胸部CT报告中自动生成TNM分类并评估其性能的系统。原创 2024-10-07 10:30:00 · 120 阅读 · 0 评论 -
CANCERLLM: A LARGE LANGUAGE MODEL IN CANCER DOMAIN
ClinicalCamel 70B、Llama3OpenBioLLM 70B 等医学大语言模型 (LLM) 在各种医学 NLP 任务中表现出了令人印象深刻的性能。然而,目前仍然缺乏专门针对癌症领域设计的大型语言模型(LLM)。此外,这些LLM通常有数十亿个参数,这使得它们对于医疗保健系统来说计算成本高昂。原创 2024-09-28 10:00:00 · 36 阅读 · 0 评论 -
Interpretable Differential Diagnosis with Dual-Inference Large Language Models
根据患者的症状描述,自动生成鉴别诊断 (DDx) 以预测潜在疾病列表作为鉴别诊断的方法学进步对于临床推理和决策支持等应用至关重要。然而,为这些鉴别诊断提供推理或解释更有意义。幸运的是,大型语言模型 (LLM) 具有强大的语言处理能力,并已被证明在各种相关任务中有效。在这种潜力的推动下,我们研究了 LLM 在可解释 DDx 中的使用。首先,我们开发了一个新的 DDx 数据集,对 570 份公共临床笔记进行了专家衍生的解释。原创 2024-09-11 09:41:48 · 44 阅读 · 0 评论 -
A Literature Review and Framework for Human Evaluation of Generative Large Language Models
随着生成式人工智能 (AI),尤其是大型语言模型 (LLM),继续渗透到医疗保健领域,用人工专家评估来补充传统的自动评估仍然至关重要。理解和评估生成的文本对于确保安全性、可靠性和有效性至关重要。然而,人工评估的繁琐、耗时和非标准化性质为在实践中广泛采用 LLM 带来了重大障碍。本研究回顾了关于医疗保健领域 LLM 人类评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显着需求。原创 2024-09-07 11:21:46 · 47 阅读 · 0 评论 -
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine
自 ChatGPT 和 GPT-4 发布以来,大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 因其在理解、推理和生成方面强大而通用的能力而受到广泛关注,从而为人工智能与医学的整合提供了新的范式。本综述全面概述了 LLM 和 MLLM 的发展背景和原则,并探讨了它们在医学中的应用场景、挑战和未来方向。具体来说,这项调查首先关注范式转变,追溯从传统模型到 LLM 和 MLLM 的演变,总结模型结构以提供详细的基础知识。原创 2024-09-07 11:04:42 · 141 阅读 · 0 评论 -
MED42-V2: A SUITE OF CLINICAL LLMS
Med42-v2引入了一套临床大型语言模型(LLM),旨在解决医疗环境中通用模型的局限性。这些模型基于Llama3架构构建,并使用专门的临床数据进行微调。他们经历了多阶段的偏好调整,以有效地应对自然提示。虽然通用模型通常是偏好一致的,以避免回答临床查询作为预防措施,但Med42-v2经过专门训练以克服这一局限性,使其能够在临床环境中使用。与原始Llama3模型相比,Med42-v2模型在8B和70B参数配置以及GPT-4方面在各种医疗基准测试中表现出卓越的性能。原创 2024-08-21 09:35:41 · 37 阅读 · 0 评论 -
MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering
大型语言模型(LLMs)有可能促进人工智能技术的发展,以协助医学专家提供交互式决策支持。LLM在医学问答方面取得的最先进的成绩证明了这一潜力,取得了令人瞩目的成绩,例如在执照医学考试中取得了及格成绩。然而,尽管令人印象深刻,但医疗应用所需的质量标准仍远未达到。目前,LLM仍然受到过时知识和产生幻觉内容倾向的挑战。此外,大多数评估医学知识的基准缺乏参考金解释,这意味着无法评估LLM预测的推理。最后,如果我们考虑对英语以外的语言进行LLM基准测试,情况尤其严峻,据我们所知,英语仍然是一个完全被忽视的话题。原创 2024-08-16 14:12:54 · 51 阅读 · 0 评论 -
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI
大型视觉语言模型(LVLM)能够处理各种数据类型,如成像、文本和生理信号,并可应用于各个领域。在医疗领域,LVLM具有很高的潜力为诊断和治疗提供实质性的帮助。在此之前,制定基准来评估LVLM在各种医疗应用中的有效性至关重要。当前的基准通常建立在特定的学术文献之上,主要关注单一领域,缺乏不同的感知粒度。因此,他们面临着具体的挑战,包括有限的临床相关性、不完整的评估以及对交互式LVLM的指导不足。原创 2024-08-15 15:03:34 · 44 阅读 · 0 评论 -
Adapting Mental Health Prediction Tasks for Cross-lingual Learning via Meta-Training and In-context
及时识别对于有效处理抑郁症等心理健康疾病至关重要。然而,目前的研究未能充分解决从斯瓦希里语等低资源非洲语言的社交媒体数据中预测心理健康状况的问题。本研究介绍了两种不同的方法,即利用模型无关元学习和利用大型语言模型(LLM)来解决这一差距。实验在翻译成低资源语言的三个数据集上进行,并应用于四项心理健康任务,包括压力、抑郁、抑郁严重程度和自杀意念预测。我们首先应用了一个具有自我监督的元学习模型,这改进了模型初始化,以实现快速适应和跨语言迁移。原创 2024-08-08 21:17:35 · 47 阅读 · 0 评论 -
CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis
随着大型语言模型(LLM)的出现,医学诊断领域发生了重大变革,但这些模型中可解释性的挑战在很大程度上仍未得到解决。本研究引入了诊断链(CoD),以提高基于LLM的医学诊断的可解释性。CoD将诊断过程转化为反映医生思维过程的诊断链,提供透明的推理途径。此外,CoD输出疾病置信度分布,以确保决策的透明度。这种可解释性使模型诊断变得可控,并通过置信度的熵降低来帮助识别关键症状以供查询。通过CoD,我们开发了DiagnosticsGPT,能够诊断9604种疾病。原创 2024-08-05 15:42:16 · 171 阅读 · 0 评论 -
Capabilities of Gemini Models in Medicine
各种医学应用的卓越表现给人工智能带来了相当大的挑战,需要先进的推理、获取最新的医学知识和理解复杂的多模态数据。Gemini模型在多模态和长上下文推理方面具有很强的通用能力,在医学领域提供了令人兴奋的可能性。基于Gemini 1.0和Gemini 1.5的这些核心优势,我们引入了Med Gemini,这是一个功能强大的多模态模型家族,专门从事医学研究,能够无缝集成网络搜索的使用,并且可以使用自定义编码器有效地针对新的模式进行定制。原创 2024-07-13 21:34:07 · 130 阅读 · 0 评论 -
A Data Augmentation Pipeline Leveraging Large Language Models for Counseling Conversations
我们引入了一个利用大型语言模型(LLM)将单轮心理治疗咨询会话转化为多轮互动的管道。虽然存在人工智能支持的针对精神障碍患者的在线咨询服务,但它们往往受到多轮训练数据集有限可用性的限制,并且经常无法充分利用治疗师的专业知识。我们提出的管道有效地解决了这些限制。该管道包括两个主要步骤:1)信息提取和2)多轮咨询生成。每一步都经过精心设计,从可用的数据集中提取并生成全面的多轮咨询对话。零样本和小样本生成场景的实验结果表明,我们的方法显著增强了LLM在心理健康咨询背景下产生更高质量多轮对话的能力。原创 2024-07-08 09:57:17 · 155 阅读 · 0 评论 -
Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds
临床推理是指医生在评估和管理患者时所采用的认知过程。这一过程通常包括建议必要的检查、诊断患者的疾病和选择适当的治疗方法等。准确的临床推理需要广泛的医学知识和丰富的临床经验,这为医生设定了很高的标准。这在发展中国家尤其具有挑战性,因为患者数量巨大,医生资源有限,严重加剧了全球卫生不平等,需要采用自动化的临床推理方法。最近,大型语言模型(LLM)的出现,如ChatGPT和GPT-4,已经证明了它们在临床推理中的潜力。然而,这些LLM容易出现幻觉问题,LLM的推理过程可能与医生的临床决策途径不一致。原创 2024-07-05 13:38:19 · 44 阅读 · 0 评论 -
LARGE LANGUAGE MULTIMODAL MODELS FOR 5-YEAR CHRONIC DISEASE COHORT PREDICTION USING EHR DATA
糖尿病等慢性疾病是全球发病率和死亡率的主要原因。已经尝试在诊断中使用各种深度学习模型进行大量研究。然而,以前的大多数研究都有一定的局限性,包括使用公开的数据集(如MIMIC)和不平衡数据。在本研究中,我们从台湾医院数据库中收集了五年电子健康记录(EHR),包括1420596份临床笔记、387392份实验室检测结果和1505多个实验室检测项目,重点研究预训练大语言模型。我们提出了一种新的大型语言多模态模型(LLMM)框架,该框架结合了来自临床笔记和实验室测试结果的多模态数据,用于预测慢性病风险。原创 2024-07-02 09:11:13 · 56 阅读 · 0 评论 -
The opportunities and risks of large language models in mental health
全球心理健康问题的发生率正在上升,人们越来越意识到现有的心理健康模式将无法充分扩展以满足需求。随着大型语言模型(LLM)的出现,人们对其创造新的、大规模的解决方案来支持心理健康的承诺感到非常乐观。尽管LLMs是新手,但它们已经被应用于与心理健康相关的任务。在这篇综述中,我们总结了关于使用LLM提供心理健康教育、评估和干预的现有文献,并强调了在每个领域产生积极影响的关键机会。然后,我们强调了LLM应用于心理健康的相关风险,并鼓励采取策略来减轻这些风险。原创 2024-07-01 14:40:34 · 60 阅读 · 0 评论 -
EyeGPT: Ophthalmic Assistant with Large Language Models
人工智能(AI)由于其改善临床工作流程和加强医疗交流的潜力,在医疗咨询中受到了极大的关注。然而,由于医学信息的复杂性,用一般世界知识训练的大型语言模型可能不具备在专家级别处理医学相关任务的能力。在这里,我们介绍EyeGPT,这是一种专门为眼科设计的LLM,使用了三种优化策略,包括角色扮演、微调和检索增强生成。特别是,我们提出了一个全面的评估框架,该框架包括不同的数据集,涵盖眼科的不同子专业、不同的用户和不同的查询意图。此外,我们考虑了多种评估指标,包括准确性、可理解性、可信度、同理心和幻觉的比例。原创 2024-07-01 10:54:46 · 78 阅读 · 0 评论 -
An Automatic and End-to-End System for Rare Disease Knowledge Graph Construction
目标我们的目标是创建一个名为AutoRD的端到端系统,该系统可以自动从罕见病的临床文本中提取信息。我们进行了各种测试来评估AutoRD的性能,并在本文中强调了其优势和局限性。材料和方法我们的系统AutoRD是一个涉及数据预处理、实体提取、关系提取、实体校准和知识图谱构建的软件管道。我们使用从开源医学本体开发的大型语言模型和医学知识图谱来实现这一点。我们在实体提取、关系提取和知识图谱构建性能方面对我们的系统进行了定量评估。结果AutoRD的F1总分为47.3%,与基础LLM相比提高了14.4%。原创 2024-06-30 11:42:03 · 54 阅读 · 0 评论 -
Explainable Clinical Decision Reasoning with LLM Disscusion via Argumentation Schemes
在临床推理中使用大型语言模型有两个主要障碍。首先,尽管LLM在自然语言处理(NLP)任务中表现出显著的前景,但它们在复杂推理和规划中的性能达不到预期。其次,LLM使用难以理解的方法来做出与临床医生的认知过程根本不同的临床决策。这导致了用户的不信任。在本文中,我们提出了一个名为ArgMedAgents的多智能体框架,旨在使基于LLM的智能体能够通过交互进行可解释的临床决策推理。原创 2024-06-28 16:51:02 · 35 阅读 · 0 评论 -
MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models
随着大型语言模型(LLM)发展出越来越复杂的功能并在医疗环境中找到应用,评估其医疗安全变得非常重要,因为它们对个人和公共健康、患者安全和人权具有深远的影响。然而,在LLM的背景下,人们对医疗安全的概念几乎没有了解,更不用说如何评估和改进它了。为了解决这一差距,我们首先根据美国医学协会提出的医学伦理原则定义LLM中的医疗安全概念。然后,我们利用这一理解引入MedSafetyBench,这是第一个专门用于测量LLM医疗安全性的基准数据集。原创 2024-06-27 21:48:10 · 63 阅读 · 0 评论 -
Large Language Models for Mental Health: A Systematic Review
背景大型语言模型(LLM)在数字健康领域受到了广泛的关注,并显示出其潜力,而其在心理健康领域的应用仍存在争议。这篇系统综述旨在通过调查LLM最新工作的优势和局限性,总结和描述LLM在心理健康中的应用,并讨论早期筛查、数字干预和其他心理健康临床应用的挑战和机遇。目标这篇系统综述严格审查了LLM在心理健康中的使用,特别关注其在早期筛查、数字干预和临床环境中的适用性和有效性。通过系统地整理和评估当前研究的证据,我们的工作分析了模型、方法、数据来源和结果,从而描绘了LLM在心理健康护理中的运营效用的明确未来。原创 2024-06-26 14:12:27 · 75 阅读 · 0 评论 -
HealMe: Harnessing Cognitive Reframing in Large Language Models for Psychotherapy
大型语言模型(LLM)可以通过熟练地处理认知重构的关键任务,克服羞耻感、不信任感、治疗师技能的可变性和资源稀缺等挑战,在心理治疗中发挥至关重要的作用。以前在认知重构中的LLM主要将负面情绪转化为积极情绪,但这些方法的效果有限,通常不能促进客户自我发现其他视角。在这篇论文中,我们揭示了通过心理增强中的自适应语言帮助和赋权(HealMe)模型。这种新颖的认知重构治疗方法有效地解决了根深蒂固的负面思想,并培养了理性、平衡的观点。与传统的LLM方法不同,HealMe采用了基于心理治疗框架的移情对话。原创 2024-06-25 14:47:15 · 100 阅读 · 0 评论 -
Large Language Models in Biomedical and Health Informatics: A Bibliometric Review
大型语言模型(LLM)已迅速成为生物医学和健康信息学(BHI)的重要工具,为分析数据、治疗患者和进行研究提供了新的方法。这篇文献计量综述旨在通过审查2022年至2023年的研究文章和合作网络,全面了解LLM在BHI中的使用情况。它进一步探讨了LLM如何改进自然语言处理(NLP)在各种BHI领域的应用,如医疗诊断、患者参与、电子健康记录管理和个性化医疗。为此,我们的文献计量综述确定了关键趋势,绘制了研究网络图,并强调了这一快速发展领域的主要发展。原创 2024-06-21 09:28:34 · 56 阅读 · 0 评论 -
CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based Mental Health QA
人工智能的最新进展凸显了语言模型在心理健康支持方面的潜力。虽然根据心理健康服务平台的数据训练的模型已经取得了初步成功,但在数据稀缺、质量和确保心理技术的坚实基础等领域仍然存在挑战。为了应对这些挑战,本研究引入了一种新的方法,通过大型语言模型来提高心理支持的准确性和有效性。具体而言,我们设计了一个源自认知行为疗法(CBT)原理的特定提示,并生成了CBT QA数据集,专门用于基于CBT结构化干预策略的中国心理健康问答。与以前的方法不同,我们的数据集强调专业和结构化的响应。原创 2024-06-12 11:31:15 · 249 阅读 · 0 评论 -
Qibo: A Large Language Model for Traditional Chinese Medicine
在人工智能领域,大型语言模型(LLM)在医学、法律和金融等多个专业领域的用户意图理解和响应方面取得了重大进展。然而,在中医学这一独特的领域,LLMs的性能提升受到其理论与现代医学本质差异以及缺乏专业语料库资源的挑战。在本文中,我们旨在构建和组织一个中医领域的专业语料库,赋予大模型以中医理论特色的专业知识,并成功开发基于LLaMA的Qibo模型,这是中医领域第一个经历了从预训练到监督微调(SFT)的完整训练过程的LLM。原创 2024-06-12 11:08:21 · 143 阅读 · 0 评论 -
Chain-of-Interaction: Enhancing Large Language Models for Psychiatric Behavior Understanding
在动机访谈(MI)过程中,对患者行为进行自动编码对于支持心理治疗师的决策至关重要,这是一种解决精神问题(如酒精和毒瘾)的协作沟通干预方法。虽然行为编码任务已经快速调整了语言模型来预测MI会话期间的患者状态,但缺乏特定领域的知识和忽视患者与治疗师的互动是在实际实践中开发和部署这些模型的主要挑战。为了应对这些挑战,我们引入了互动链(CoI)提示方法,旨在通过二元互动将大型语言模型(LLM)情境化,以支持精神病决策。原创 2024-06-11 11:18:26 · 57 阅读 · 0 评论 -
AI for Biomedicine in the Era of Large Language Models
人工智能在生物医学方面的能力涵盖了广泛的领域,从原子层面(解决量子系统的偏微分方程)到分子层面(预测化学或蛋白质结构),再到传染病爆发等社会预测。以ChatGPT等模型为例,大型语言模型的最新进展在自然语言任务方面展现了非凡的能力,如翻译语言、构建聊天机器人和回答问题。当我们考虑生物医学数据时,我们观察到在序列方面与自然语言相似——生物医学文献和健康记录以文本形式呈现,生物序列或按序列排列的测序数据,或传感器数据(如大脑信号)以时间序列形式呈现。原创 2024-06-10 10:57:32 · 39 阅读 · 0 评论 -
Improving Generalizability of Extracting Social Determinants of Health
使用大型语言模型(LLM)的自然语言处理(NLP)的进展极大地改进了从临床叙述中提取患者信息。然而,大多数基于微调策略的方法在跨领域应用中的迁移学习能力有限。这项研究提出了一种新的方法,该方法采用了基于软提示的学习架构,该架构引入了可训练的提示来引导LLM获得所需的输出。我们检查了两种类型的LLM架构,包括仅编码器的GatorTron和仅解码器的GatorTronGPT,并使用2022年n2c2挑战的跨机构数据集和佛罗里达大学健康学院的跨疾病数据集评估了它们在提取健康社会决定因素(SDoH)方面的性能。原创 2024-06-06 09:06:14 · 62 阅读 · 0 评论 -
Depression Detection on Social Media with Large Language Models
抑郁症的危害。然而,由于缺乏心理健康意识和对污名的恐惧,许多患者没有积极寻求诊断和治疗,导致了不利的结果。抑郁症检测旨在通过分析个人在社交媒体上的帖子历史来确定他们是否患有抑郁症,这可以大大有助于早期发现和干预。它主要面临两个关键挑战:1)它需要专业的医学知识,2)它需要高准确性和可解释性。为了解决这个问题,我们结合医学知识和大型语言模型(LLM)的最新进展,提出了一种新的抑郁症检测系统,称为DORIS。原创 2024-06-03 10:11:33 · 107 阅读 · 0 评论 -
Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator
大型语言模型(LLM)在人类互动方面表现出了非凡的熟练程度,但其在医学领域的应用仍有待充分探索。以往的工作主要集中在医学知识与检查的表现上,与现实情况相去甚远,无法评估LLM在临床任务中的能力。为了增强大型语言模型(LLM)在医疗保健中的应用,本文引入了自动交互评估(AIE)框架和状态感知患者模拟器(SAPS),针对传统LLM评估与临床实践细微需求之间的差距。与以前依赖静态医学知识评估的方法不同,AIE和SAPS为通过多轮医患模拟评估LLM提供了一个动态、现实的平台。原创 2024-05-27 16:30:54 · 55 阅读 · 0 评论 -
Towards Training A Chinese Large Language Model for Anesthesiology
医学大语言模型(LLM)由于其显著的实用性,近年来越来越受欢迎。然而,现有的大多数研究都集中在普通医学上,需要在麻醉学等特定领域对LLM进行深入研究。为了填补这一空白,我们引入了Hypnos,这是一种建立在现有LLM基础上的中国麻醉模型,例如Llama。Hypnos的贡献有三个方面:1)从当前LLM中获得的数据,如使用自我指导,可能包括不准确之处。Hypnos采用交叉过滤策略来提高数据质量。该策略包括使用一个LLM来评估从另一个LLM生成的数据的质量,并过滤掉低质量的数据。原创 2024-05-23 16:34:42 · 44 阅读 · 0 评论 -
A Multi-Source Context Augmentation Framework for Generating Patient-Centric Medical Responses
大型语言模型(LLM)在生成类似人类的反应方面表现出了令人印象深刻的能力。然而,它们缺乏特定领域的知识,限制了它们在医疗环境中的适用性,在医疗环境下,上下文和全面的应对措施至关重要。为了应对这一挑战,并能够生成与上下文相关且全面的以患者为中心的反应,我们提出了MedInsight一个新的检索增强框架,该框架利用来自多个来源的相关背景信息增强LLM输入(提示)。MedInsight从患者的医疗记录或会诊记录中提取相关细节。然后,它整合了权威医学教科书中的信息,并根据患者的健康史和状况策划了网络资源。原创 2024-05-22 19:24:50 · 40 阅读 · 0 评论 -
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions
LLM在回答医学问题方面表现出色,例如通过医学执照考试。然而,医学委员会考试问题或一般临床问题并不能反映现实临床病例的复杂性。此外,缺乏参考解释意味着我们无法轻易评估模型决策的推理,这是支持医生做出复杂医疗决策的关键组成部分。为了应对这些挑战,我们构建了两个新的数据集:《美国医学会杂志》临床挑战和Medbullets。1《美国医学会刊》临床挑战包括基于具有挑战性的临床病例的问题,而Medbullets包括USMLE第2步和第3步式的临床问题。原创 2024-05-09 19:44:36 · 83 阅读 · 0 评论 -
OncoGPT: A Medical Conversational Model Tailored with Oncology Domain Expertise
在过去的一年里,将大型语言模型(LLM)应用于医学领域的趋势越来越大,特别是随着OpenAI开发的ChatGPT等高级语言模型的出现。然而,专门针对肿瘤学相关问题的LLM研究有限。这项研究的主要目的是开发一种专门的语言模型,以提高提供肿瘤学相关建议的准确性。我们从信誉良好的医患平台收集了大量以肿瘤学为中心的在线问答互动数据。在数据清理和匿名化之后,建立了一个包含超过180K+个肿瘤学相关对话的数据集。现场专家和临床医生对对话进行了分类和仔细审查,以确保准确性。原创 2024-05-06 15:54:25 · 290 阅读 · 0 评论 -
Me LLaMA: Foundation Large Language Models for Medical Applications
最近的大型语言模型(LLM),如ChatGPT和LLaMA,在许多人工智能应用中显示出了巨大的前景。然而,它们在医疗任务上的性能是次优的,可以通过在广泛的特定领域数据集上进行训练来提高。本研究介绍了Me LLaMA,这是一个医学LLM家族,包括基础模型-Me LLaMA 13/70B,以及它们的高级版本-Me LLa MA 13/70B聊天,通过使用大型医学数据集对LLaMA2进行持续的预训练和指令调整而开发。原创 2024-04-05 14:22:14 · 100 阅读 · 0 评论 -
Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems
大型语言模型在医疗保健行业具有潜在的价值,但通过严格的评估验证其安全性和有效性至关重要。为此,我们在医学推理、幻觉检测和医学视觉问答任务中全面评估了开源LLM和谷歌新的多模式LLM Gemini。虽然Gemini表现出了能力,但在诊断准确性方面落后于MedPaLM 2和GPT-4等最先进的模型。此外,Gemini在医疗VQA数据集上的准确率为61.45%,显著低于GPT-4V 88%的得分。我们的分析表明,Gemini非常容易产生幻觉、过度自信和知识差距,这表明如果不加批判地部署,就会有风险。原创 2024-04-05 14:08:39 · 57 阅读 · 0 评论