本文是LLM系列文章,针对《OncoGPT: A Medical Conversational Model Tailored with Oncology Domain Expertise on a Large Language Model Meta-AI (LLaMA)》的翻译。
摘要
在过去的一年里,将大型语言模型(LLM)应用于医学领域的趋势越来越大,特别是随着OpenAI开发的ChatGPT等高级语言模型的出现。然而,专门针对肿瘤学相关问题的LLM研究有限。这项研究的主要目的是开发一种专门的语言模型,以提高提供肿瘤学相关建议的准确性。我们从信誉良好的医患平台收集了大量以肿瘤学为中心的在线问答互动数据。在数据清理和匿名化之后,建立了一个包含超过180K+个肿瘤学相关对话的数据集。现场专家和临床医生对对话进行了分类和仔细审查,以确保准确性。利用LLaMA模型和其他选定的开源数据集,我们进行了迭代微调,以提高模型在基本医学对话和专业肿瘤学知识方面的熟练程度。我们观察到,通过在微调过程中利用真实的在线问答互动,该模型对真实的患者咨询的理解及其在提供肿瘤学相关建议方面的可靠性显著增强。我们在研究社区发布数据库和模型(https://github.com/OncoGPT1).