
LLM for Medical
文章平均质量分 69
本专栏是LLM 在医学中应用的相关论文,专栏中部分文章为完整翻译,大多是摘要和结论的翻译,后续会完善所有内容翻译,订阅请注意!!!
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Towards Omni-RAG: Comprehensive Retrieval-Augmented Generation for Large Language Models in Medical
大型语言模型有望解决医疗挑战,如医疗诊断推理、研究知识获取、临床决策和消费者健康查询支持。然而,由于医学知识有限,他们经常产生幻觉。因此,整合外部知识至关重要,这需要多源知识的获取。我们通过将其视为源规划问题来应对这一挑战,即根据不同源的属性制定适合上下文的查询。现有的方法要么忽视了源计划,要么由于模型对源的期望与其实际内容之间的不一致而无法有效地实现它。为了弥合这一差距,我们提出了MedOmniKB,这是一个由多类型和多结构医学知识源组成的知识库。原创 2025-03-02 10:00:00 · 14 阅读 · 0 评论 -
PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models
大型语言模型(LLM)在医学领域的出现强调了对标准数据集的迫切需求,以评估其问答(QA)性能。尽管已经有几个用于医疗质量保证的基准数据集,但它们要么涵盖了不同部门的常识,要么特定于另一个部门而不是儿科。此外,其中一些仅限于客观问题,并不衡量LLM的生成能力。因此,他们无法全面评估儿科LLMs的QA能力。为了填补这一空白,我们构建了PediaBench,这是第一个用于LLM评估的中国儿科数据集。具体来说,它包含4565个客观问题和1632个主观问题,涉及12个儿科疾病组。原创 2025-02-09 09:00:00 · 114 阅读 · 0 评论 -
Understanding the Rare Inflammatory Disease Using Large Language Models and Social Media Data
结节病是一种罕见的炎症性疾病,其特征是在多个器官中形成肉芽肿。由于其多样的表现和不可预测的性质,该疾病给诊断和治疗带来了挑战。在这项研究中,我们采用大型语言模型(LLM)来分析社交媒体平台 Reddit 上与结节病相关的讨论。我们的研究结果强调了LLM在准确识别结节病相关内容方面的功效。我们发现患者报告了多种症状,其中最常见的是疲劳、淋巴结肿大和呼吸急促。泼尼松是最常用的药物,而英夫利昔单抗在改善预后方面表现出最高的有效性。原创 2024-12-25 09:15:00 · 199 阅读 · 0 评论 -
Explainable cognitive decline detection in free dialogues with a Machine Learning approach
认知和神经系统障碍非常常见,但只有一小部分受影响的人得到诊断和治疗,部分原因是频繁筛查的成本高昂。通过有效且高效的智能系统检测疾病前期阶段并分析神经系统疾病的进展,有利于及时诊断和早期干预。我们建议使用大型语言模型从自由对话中提取特征来检测认知能力下降。这些功能包括与内容无关的高级推理功能(例如理解力、意识下降、注意力分散和记忆问题)。我们的解决方案包括(i)预处理,(ii)通过自然语言处理技术和提示工程进行特征工程,(iii)特征分析和选择以优化性能,以及(iv)由自动可解释性支持的分类。原创 2024-12-10 10:58:45 · 133 阅读 · 0 评论 -
An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical
人工智能大语言模型 (LLM) 的不断进步提供了在许多情况下直观访问和使用医学知识的重要能力,包括教育和培训以及评估和治疗。大多数关于医学LLM的最初文献都强调LLM不适合医疗用途,因为它们具有不确定性,可能提供不正确或有害的反应,并且无法进行监管以确保质量控制。如果这些问题能够得到纠正,优化LLM技术可以通过提供负担得起的即时医疗知识来使患者和医生受益。我们提出的框架通过将其主要知识库限制为包含经过验证的医疗信息的特定领域数据集来完善LLM的响应。原创 2024-12-11 09:15:00 · 123 阅读 · 0 评论 -
Automatic Summarization of Doctor-Patient Encounter Dialogues Using Large Language Model
摘要1 引言2 方法3 实验设置4 结果5 讨论和结论自动文本摘要 (ATS) 是一项新兴技术,可帮助临床医生提供持续、协调的护理。本研究提出了一种使用生成大语言模型(LLM)总结医患对话的方法。我们开发了提示调整算法来指导生成LLM总结临床文本。我们检查了 GatorTronGPT 的提示调整策略、软提示的大小以及短学习能力,GatorTronGPT 是一种生成临床 LLM,使用 2770 亿个临床和通用英语单词以及多达 200 亿个参数开发。原创 2024-12-05 09:30:00 · 126 阅读 · 0 评论 -
MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese
在实际部署之前,确保医学大语言模型 (LLM) 对人类的总体功效和益处至关重要。然而,一个被广泛接受和易于使用的医学LLM评估流程仍有待建立,特别是在中文背景下。在这项工作中,我们引入了“MedBench”,这是一个全面、标准化、可靠的中文医学LLM基准测试系统。首先,MedBench汇集了目前最大的评估数据集(300,901个问题),覆盖43个临床专业,对医学LLM进行多方位评估。其次,MedBench 提供标准化、全自动的基于云的评估基础设施,将问题和真实情况进行物理分离。原创 2024-12-04 09:15:00 · 188 阅读 · 0 评论 -
Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds
临床推理是指医生在评估和管理患者时所采用的认知过程。这一过程通常包括建议必要的检查、诊断患者的疾病和选择适当的治疗方法等。准确的临床推理需要广泛的医学知识和丰富的临床经验,这为医生设定了很高的标准。这在发展中国家尤其具有挑战性,因为患者数量巨大,医生资源有限,严重加剧了全球卫生不平等,需要采用自动化的临床推理方法。最近,大型语言模型(LLM)的出现,如ChatGPT和GPT-4,已经证明了它们在临床推理中的潜力。然而,这些LLM容易出现幻觉问题,LLM的推理过程可能与医生的临床决策途径不一致。原创 2024-11-20 16:21:29 · 48 阅读 · 0 评论 -
Evaluation of Bias Towards Medical Professionals in Large Language Models
社会基于性别、种族和民族对医疗专业人员持有固有的偏见。本研究旨在评估大型语言模型 (LLM) 在住院医师选择方面是否表现出对医疗专业人员的偏见。**方法:**创建虚构的候选人简历以控制包括性别和种族在内的身份因素,同时保持一致的资格。三个 LLM(GPT-4、Claude-3haiku 和 Mistral-Large)使用标准化提示进行测试,以评估和排名特定住院医师计划的简历。通过直接更改性别和种族信息来测试显式偏见,而通过隐藏种族和性别更改候选人的姓名来测试隐性偏见。原创 2024-11-20 10:30:00 · 49 阅读 · 0 评论 -
Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment
目的本研究评估电子健康记录 (EHR) 和自然语言处理 (NLP) 与大型语言模型 (LLM) 的集成,以增强医疗保健数据管理和患者护理,重点是使用高级语言模型为全球生物医学研究创建安全、符合 HIPAA 标准的合成患者记录。材料和方法该研究利用 GPT-3.5、GPT-4 和 Mistral 7B 的 MIMIC III 数据集的原始去标识化和重新标识(即重新填充)版本来生成合成临床记录。文本生成使用模板和关键字提取来生成上下文相关的合成注释,并使用一次性生成进行比较分析。原创 2024-11-15 09:15:00 · 32 阅读 · 0 评论 -
RT-Surv: Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring
准确的患者选择对于防止无效的放疗 (RT) 治疗至关重要。依赖于结构化数据的传统生存预测模型通常缺乏精度。大型语言模型 (LLM) 为构建非结构化电子健康记录 (EHR) 数据提供了一种新颖的方法,通过整合全面的临床信息,有可能改善生存预测。我们分析了 2013 年至 2023 年间延世癌症中心接受 RT 治疗的 34,276 名患者的结构化和非结构化数据。开源 LLM 使用单次学习构建了非结构化 EHR 数据。原创 2024-11-18 09:15:00 · 360 阅读 · 0 评论 -
Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report
背景:由于劳动密集型结构和叙述式报告,结构化放射学报告仍然不发达。深度学习,尤其是像 GPT-3.5 这样的大型语言模型 (LLM),有望以自然语言自动构建放射学报告。然而,尽管有报道 LLM 在英语以外的语言中效果较差,但其放射学性能尚未得到广泛研究。目的:本研究旨在调查使用 GPT3.5-turbo (GPT3.5) 的放射学报告对 TNM 分类的准确性以及多语言 LLM 在日语和英语中的效用。材料和方法。原创 2024-11-12 10:00:00 · 37 阅读 · 0 评论 -
RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic
大型语言模型 (LLM) 推动了医学人工智能 (AI) 领域的发展。但是,LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成 (RAG) 通过集成外部数据源来缓解这种情况。以前的 RAG 系统使用预先组装的固定数据库,灵活性有限,而我们已经开发了放射学 RAG (RadioRAG) 作为端到端框架,可以从权威放射学在线资源实时检索数据。RadioRAG 使用专用的放射学问答数据集 (RadioQA) 进行评估。原创 2024-11-01 14:04:48 · 52 阅读 · 0 评论 -
Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note
GPT-4 和 Gemini 等专有大型语言模型 (LLM) 在临床文本摘要任务中表现出有前途的能力。但是,出于患者数据隐私和计算成本的考虑,许多医疗保健提供商更喜欢使用小型的本地托管模型,而不是外部通用 LLM。本研究为开源 LLaMA-2 130 亿参数模型提出了一个全面的领域和任务特定适应过程,使其能够从门诊医患对话中生成高质量的临床记录。我们的流程包括持续的预训练、监督式微调以及来自 AI 和人类反馈的强化学习。原创 2024-10-19 19:54:37 · 123 阅读 · 0 评论 -
OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models
近年来人工智能的进步,如大型语言模型(LLMs),激发了人们对基因组基础模型(GFMs)突破的期望。自生命进化之初就隐藏在各种基因组中的自然密码,通过基因组建模对人类和生态系统的影响具有巨大的潜力。最近在GFM方面的突破,如Evo,吸引了对基因组建模的大量投资和关注,因为它们解决了长期存在的挑战,并将计算机基因组研究转化为自动化、可靠和高效的范式。在基因组学连续技术革命的繁荣时代,GFM研究面临两大挑战:缺乏GFM基准工具和缺乏用于多种基因组学的开源软件。原创 2024-10-17 09:30:00 · 229 阅读 · 0 评论 -
Answering real-world clinical questions using large language model based systems
由于缺乏相关和值得信赖的文献,以及难以将针对特定患者的现有研究置于背景中,指导医疗保健决策的证据往往受到限制。大型语言模型 (LLM) 可以通过总结已发表的文献或根据真实世界数据 (RWD) 生成新研究来潜在地解决这两个挑战。我们评估了 5 个基于 LLM 的系统回答 50 个临床问题的能力,并让 9 名独立医生审查了回答的相关性、可靠性和可操作性。原创 2024-10-15 14:09:33 · 125 阅读 · 0 评论 -
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi
背景和目的:本研究评估了胃肠病学中大型语言模型(LLMs)和视觉语言模型(VLMs)的医学推理性能。方法:我们使用了300个胃肠病学委员会考试式的多项选择题,其中138个包含图像,以系统地评估模型配置和参数的影响,并利用GPT-3.5提示工程策略。原创 2024-10-10 09:00:00 · 191 阅读 · 0 评论 -
Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Repor
背景:由于劳动密集型的结构化和叙事式报告,结构化放射学报告仍然不发达。深度学习,特别是像GPT-3.5这样的大型语言模型(LLM),为用自然语言自动构建放射学报告提供了希望。然而,尽管有报道称LLM在英语以外的语言中效果较差,但它们的放射学性能尚未得到广泛研究。目的:本研究旨在调查基于使用GPT3.5 turbo(GPT3.5)的放射学报告的TNM分类的准确性,以及日语和英语多语言LLM的实用性。材料和方法:利用GPT3.5,我们开发了一个从癌症胸部CT报告中自动生成TNM分类并评估其性能的系统。原创 2024-10-07 10:30:00 · 141 阅读 · 0 评论 -
CANCERLLM: A LARGE LANGUAGE MODEL IN CANCER DOMAIN
ClinicalCamel 70B、Llama3OpenBioLLM 70B 等医学大语言模型 (LLM) 在各种医学 NLP 任务中表现出了令人印象深刻的性能。然而,目前仍然缺乏专门针对癌症领域设计的大型语言模型(LLM)。此外,这些LLM通常有数十亿个参数,这使得它们对于医疗保健系统来说计算成本高昂。原创 2024-09-28 10:00:00 · 74 阅读 · 0 评论 -
Interpretable Differential Diagnosis with Dual-Inference Large Language Models
根据患者的症状描述,自动生成鉴别诊断 (DDx) 以预测潜在疾病列表作为鉴别诊断的方法学进步对于临床推理和决策支持等应用至关重要。然而,为这些鉴别诊断提供推理或解释更有意义。幸运的是,大型语言模型 (LLM) 具有强大的语言处理能力,并已被证明在各种相关任务中有效。在这种潜力的推动下,我们研究了 LLM 在可解释 DDx 中的使用。首先,我们开发了一个新的 DDx 数据集,对 570 份公共临床笔记进行了专家衍生的解释。原创 2024-09-11 09:41:48 · 85 阅读 · 0 评论 -
A Literature Review and Framework for Human Evaluation of Generative Large Language Models
随着生成式人工智能 (AI),尤其是大型语言模型 (LLM),继续渗透到医疗保健领域,用人工专家评估来补充传统的自动评估仍然至关重要。理解和评估生成的文本对于确保安全性、可靠性和有效性至关重要。然而,人工评估的繁琐、耗时和非标准化性质为在实践中广泛采用 LLM 带来了重大障碍。本研究回顾了关于医疗保健领域 LLM 人类评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显着需求。原创 2024-09-07 11:21:46 · 79 阅读 · 0 评论 -
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine
自 ChatGPT 和 GPT-4 发布以来,大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 因其在理解、推理和生成方面强大而通用的能力而受到广泛关注,从而为人工智能与医学的整合提供了新的范式。本综述全面概述了 LLM 和 MLLM 的发展背景和原则,并探讨了它们在医学中的应用场景、挑战和未来方向。具体来说,这项调查首先关注范式转变,追溯从传统模型到 LLM 和 MLLM 的演变,总结模型结构以提供详细的基础知识。原创 2024-09-07 11:04:42 · 203 阅读 · 0 评论 -
MED42-V2: A SUITE OF CLINICAL LLMS
Med42-v2引入了一套临床大型语言模型(LLM),旨在解决医疗环境中通用模型的局限性。这些模型基于Llama3架构构建,并使用专门的临床数据进行微调。他们经历了多阶段的偏好调整,以有效地应对自然提示。虽然通用模型通常是偏好一致的,以避免回答临床查询作为预防措施,但Med42-v2经过专门训练以克服这一局限性,使其能够在临床环境中使用。与原始Llama3模型相比,Med42-v2模型在8B和70B参数配置以及GPT-4方面在各种医疗基准测试中表现出卓越的性能。原创 2024-08-21 09:35:41 · 83 阅读 · 0 评论 -
MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering
大型语言模型(LLMs)有可能促进人工智能技术的发展,以协助医学专家提供交互式决策支持。LLM在医学问答方面取得的最先进的成绩证明了这一潜力,取得了令人瞩目的成绩,例如在执照医学考试中取得了及格成绩。然而,尽管令人印象深刻,但医疗应用所需的质量标准仍远未达到。目前,LLM仍然受到过时知识和产生幻觉内容倾向的挑战。此外,大多数评估医学知识的基准缺乏参考金解释,这意味着无法评估LLM预测的推理。最后,如果我们考虑对英语以外的语言进行LLM基准测试,情况尤其严峻,据我们所知,英语仍然是一个完全被忽视的话题。原创 2024-08-16 14:12:54 · 89 阅读 · 0 评论 -
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI
大型视觉语言模型(LVLM)能够处理各种数据类型,如成像、文本和生理信号,并可应用于各个领域。在医疗领域,LVLM具有很高的潜力为诊断和治疗提供实质性的帮助。在此之前,制定基准来评估LVLM在各种医疗应用中的有效性至关重要。当前的基准通常建立在特定的学术文献之上,主要关注单一领域,缺乏不同的感知粒度。因此,他们面临着具体的挑战,包括有限的临床相关性、不完整的评估以及对交互式LVLM的指导不足。原创 2024-08-15 15:03:34 · 105 阅读 · 0 评论 -
Adapting Mental Health Prediction Tasks for Cross-lingual Learning via Meta-Training and In-context
及时识别对于有效处理抑郁症等心理健康疾病至关重要。然而,目前的研究未能充分解决从斯瓦希里语等低资源非洲语言的社交媒体数据中预测心理健康状况的问题。本研究介绍了两种不同的方法,即利用模型无关元学习和利用大型语言模型(LLM)来解决这一差距。实验在翻译成低资源语言的三个数据集上进行,并应用于四项心理健康任务,包括压力、抑郁、抑郁严重程度和自杀意念预测。我们首先应用了一个具有自我监督的元学习模型,这改进了模型初始化,以实现快速适应和跨语言迁移。原创 2024-08-08 21:17:35 · 68 阅读 · 0 评论 -
CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis
随着大型语言模型(LLM)的出现,医学诊断领域发生了重大变革,但这些模型中可解释性的挑战在很大程度上仍未得到解决。本研究引入了诊断链(CoD),以提高基于LLM的医学诊断的可解释性。CoD将诊断过程转化为反映医生思维过程的诊断链,提供透明的推理途径。此外,CoD输出疾病置信度分布,以确保决策的透明度。这种可解释性使模型诊断变得可控,并通过置信度的熵降低来帮助识别关键症状以供查询。通过CoD,我们开发了DiagnosticsGPT,能够诊断9604种疾病。原创 2024-08-05 15:42:16 · 223 阅读 · 0 评论 -
Capabilities of Gemini Models in Medicine
各种医学应用的卓越表现给人工智能带来了相当大的挑战,需要先进的推理、获取最新的医学知识和理解复杂的多模态数据。Gemini模型在多模态和长上下文推理方面具有很强的通用能力,在医学领域提供了令人兴奋的可能性。基于Gemini 1.0和Gemini 1.5的这些核心优势,我们引入了Med Gemini,这是一个功能强大的多模态模型家族,专门从事医学研究,能够无缝集成网络搜索的使用,并且可以使用自定义编码器有效地针对新的模式进行定制。原创 2024-07-13 21:34:07 · 166 阅读 · 0 评论 -
A Data Augmentation Pipeline Leveraging Large Language Models for Counseling Conversations
我们引入了一个利用大型语言模型(LLM)将单轮心理治疗咨询会话转化为多轮互动的管道。虽然存在人工智能支持的针对精神障碍患者的在线咨询服务,但它们往往受到多轮训练数据集有限可用性的限制,并且经常无法充分利用治疗师的专业知识。我们提出的管道有效地解决了这些限制。该管道包括两个主要步骤:1)信息提取和2)多轮咨询生成。每一步都经过精心设计,从可用的数据集中提取并生成全面的多轮咨询对话。零样本和小样本生成场景的实验结果表明,我们的方法显著增强了LLM在心理健康咨询背景下产生更高质量多轮对话的能力。原创 2024-07-08 09:57:17 · 192 阅读 · 0 评论 -
Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds
临床推理是指医生在评估和管理患者时所采用的认知过程。这一过程通常包括建议必要的检查、诊断患者的疾病和选择适当的治疗方法等。准确的临床推理需要广泛的医学知识和丰富的临床经验,这为医生设定了很高的标准。这在发展中国家尤其具有挑战性,因为患者数量巨大,医生资源有限,严重加剧了全球卫生不平等,需要采用自动化的临床推理方法。最近,大型语言模型(LLM)的出现,如ChatGPT和GPT-4,已经证明了它们在临床推理中的潜力。然而,这些LLM容易出现幻觉问题,LLM的推理过程可能与医生的临床决策途径不一致。原创 2024-07-05 13:38:19 · 68 阅读 · 0 评论 -
LARGE LANGUAGE MULTIMODAL MODELS FOR 5-YEAR CHRONIC DISEASE COHORT PREDICTION USING EHR DATA
糖尿病等慢性疾病是全球发病率和死亡率的主要原因。已经尝试在诊断中使用各种深度学习模型进行大量研究。然而,以前的大多数研究都有一定的局限性,包括使用公开的数据集(如MIMIC)和不平衡数据。在本研究中,我们从台湾医院数据库中收集了五年电子健康记录(EHR),包括1420596份临床笔记、387392份实验室检测结果和1505多个实验室检测项目,重点研究预训练大语言模型。我们提出了一种新的大型语言多模态模型(LLMM)框架,该框架结合了来自临床笔记和实验室测试结果的多模态数据,用于预测慢性病风险。原创 2024-07-02 09:11:13 · 87 阅读 · 0 评论 -
The opportunities and risks of large language models in mental health
全球心理健康问题的发生率正在上升,人们越来越意识到现有的心理健康模式将无法充分扩展以满足需求。随着大型语言模型(LLM)的出现,人们对其创造新的、大规模的解决方案来支持心理健康的承诺感到非常乐观。尽管LLMs是新手,但它们已经被应用于与心理健康相关的任务。在这篇综述中,我们总结了关于使用LLM提供心理健康教育、评估和干预的现有文献,并强调了在每个领域产生积极影响的关键机会。然后,我们强调了LLM应用于心理健康的相关风险,并鼓励采取策略来减轻这些风险。原创 2024-07-01 14:40:34 · 102 阅读 · 0 评论 -
EyeGPT: Ophthalmic Assistant with Large Language Models
人工智能(AI)由于其改善临床工作流程和加强医疗交流的潜力,在医疗咨询中受到了极大的关注。然而,由于医学信息的复杂性,用一般世界知识训练的大型语言模型可能不具备在专家级别处理医学相关任务的能力。在这里,我们介绍EyeGPT,这是一种专门为眼科设计的LLM,使用了三种优化策略,包括角色扮演、微调和检索增强生成。特别是,我们提出了一个全面的评估框架,该框架包括不同的数据集,涵盖眼科的不同子专业、不同的用户和不同的查询意图。此外,我们考虑了多种评估指标,包括准确性、可理解性、可信度、同理心和幻觉的比例。原创 2024-07-01 10:54:46 · 153 阅读 · 0 评论 -
An Automatic and End-to-End System for Rare Disease Knowledge Graph Construction
目标我们的目标是创建一个名为AutoRD的端到端系统,该系统可以自动从罕见病的临床文本中提取信息。我们进行了各种测试来评估AutoRD的性能,并在本文中强调了其优势和局限性。材料和方法我们的系统AutoRD是一个涉及数据预处理、实体提取、关系提取、实体校准和知识图谱构建的软件管道。我们使用从开源医学本体开发的大型语言模型和医学知识图谱来实现这一点。我们在实体提取、关系提取和知识图谱构建性能方面对我们的系统进行了定量评估。结果AutoRD的F1总分为47.3%,与基础LLM相比提高了14.4%。原创 2024-06-30 11:42:03 · 92 阅读 · 0 评论 -
Explainable Clinical Decision Reasoning with LLM Disscusion via Argumentation Schemes
在临床推理中使用大型语言模型有两个主要障碍。首先,尽管LLM在自然语言处理(NLP)任务中表现出显著的前景,但它们在复杂推理和规划中的性能达不到预期。其次,LLM使用难以理解的方法来做出与临床医生的认知过程根本不同的临床决策。这导致了用户的不信任。在本文中,我们提出了一个名为ArgMedAgents的多智能体框架,旨在使基于LLM的智能体能够通过交互进行可解释的临床决策推理。原创 2024-06-28 16:51:02 · 70 阅读 · 0 评论 -
MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models
随着大型语言模型(LLM)发展出越来越复杂的功能并在医疗环境中找到应用,评估其医疗安全变得非常重要,因为它们对个人和公共健康、患者安全和人权具有深远的影响。然而,在LLM的背景下,人们对医疗安全的概念几乎没有了解,更不用说如何评估和改进它了。为了解决这一差距,我们首先根据美国医学协会提出的医学伦理原则定义LLM中的医疗安全概念。然后,我们利用这一理解引入MedSafetyBench,这是第一个专门用于测量LLM医疗安全性的基准数据集。原创 2024-06-27 21:48:10 · 101 阅读 · 0 评论 -
Large Language Models for Mental Health: A Systematic Review
背景大型语言模型(LLM)在数字健康领域受到了广泛的关注,并显示出其潜力,而其在心理健康领域的应用仍存在争议。这篇系统综述旨在通过调查LLM最新工作的优势和局限性,总结和描述LLM在心理健康中的应用,并讨论早期筛查、数字干预和其他心理健康临床应用的挑战和机遇。目标这篇系统综述严格审查了LLM在心理健康中的使用,特别关注其在早期筛查、数字干预和临床环境中的适用性和有效性。通过系统地整理和评估当前研究的证据,我们的工作分析了模型、方法、数据来源和结果,从而描绘了LLM在心理健康护理中的运营效用的明确未来。原创 2024-06-26 14:12:27 · 136 阅读 · 0 评论 -
HealMe: Harnessing Cognitive Reframing in Large Language Models for Psychotherapy
大型语言模型(LLM)可以通过熟练地处理认知重构的关键任务,克服羞耻感、不信任感、治疗师技能的可变性和资源稀缺等挑战,在心理治疗中发挥至关重要的作用。以前在认知重构中的LLM主要将负面情绪转化为积极情绪,但这些方法的效果有限,通常不能促进客户自我发现其他视角。在这篇论文中,我们揭示了通过心理增强中的自适应语言帮助和赋权(HealMe)模型。这种新颖的认知重构治疗方法有效地解决了根深蒂固的负面思想,并培养了理性、平衡的观点。与传统的LLM方法不同,HealMe采用了基于心理治疗框架的移情对话。原创 2024-06-25 14:47:15 · 166 阅读 · 0 评论 -
Large Language Models in Biomedical and Health Informatics: A Bibliometric Review
大型语言模型(LLM)已迅速成为生物医学和健康信息学(BHI)的重要工具,为分析数据、治疗患者和进行研究提供了新的方法。这篇文献计量综述旨在通过审查2022年至2023年的研究文章和合作网络,全面了解LLM在BHI中的使用情况。它进一步探讨了LLM如何改进自然语言处理(NLP)在各种BHI领域的应用,如医疗诊断、患者参与、电子健康记录管理和个性化医疗。为此,我们的文献计量综述确定了关键趋势,绘制了研究网络图,并强调了这一快速发展领域的主要发展。原创 2024-06-21 09:28:34 · 111 阅读 · 0 评论 -
CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based Mental Health QA
人工智能的最新进展凸显了语言模型在心理健康支持方面的潜力。虽然根据心理健康服务平台的数据训练的模型已经取得了初步成功,但在数据稀缺、质量和确保心理技术的坚实基础等领域仍然存在挑战。为了应对这些挑战,本研究引入了一种新的方法,通过大型语言模型来提高心理支持的准确性和有效性。具体而言,我们设计了一个源自认知行为疗法(CBT)原理的特定提示,并生成了CBT QA数据集,专门用于基于CBT结构化干预策略的中国心理健康问答。与以前的方法不同,我们的数据集强调专业和结构化的响应。原创 2024-06-12 11:31:15 · 364 阅读 · 0 评论