本文是LLM系列文章,针对《Development and Testing of Retrieval Augmented Generation in Large
Language Models A Case Study Report》的翻译。
摘要
目的:大型语言模型(LLM)在医学应用中具有重要的前景。然而,它们的实际实施往往无法结合当前临床专业和任务的基于指南的知识。此外,像微调这样的传统精度提高方法也带来了相当大的计算挑战。
检索增强生成(RAG)是在LLM中定制领域知识的一种很有前途的方法,特别适合医疗保健实施中的需求。本案例研究介绍了为医疗保健量身定制的LLM-RAG管道的开发和评估,特别关注术前医学。LLM-RAG系统产生的反应的准确性和安全性被评估为主要终点。
方法:我们使用35种术前指南开发了LLM-RAG模型,并针对人类产生的反应进行了测试,共评估了1260种反应(336种人类产生的,336种LLM产生的,588种LLM-RAG产生的)。
RAG过程包括使用基于Python的框架(如LangChain和Llamaindex)将临床文档转换为文本,并将这些文本处理为块以进行嵌入和检索。向量存储技术和选定的嵌入模型来优化数据检索,使用Pinecone进