本文是LLM系列文章,针对《Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models》的翻译。
摘要
背景和目的:本研究评估了胃肠病学中大型语言模型(LLMs)和视觉语言模型(VLMs)的医学推理性能。
方法:我们使用了300个胃肠病学委员会考试式的多项选择题,其中138个包含图像,以系统地评估模型配置和参数的影响,并利用GPT-3.5提示工程策略。接下来,我们评估了专有和开源LLM(版本)的性能,包括GPT(3.5,4,4°,4omini)、Claude(3,3.5)、Gemini(1.0)、Mistral、Llama(2,3,3.1)、Mixtral和Phi(3),跨不同接口(web和API)、计算环境(云和本地)和模型精度(有量化和无量化)。最后,我们