大型语言模型在生物医学问答中的应用：BioASQ挑战的性能分析与未来展望-CSDN博客

本文链接：https://blog.csdn.net/java1109/article/details/141185519

导读

本文是对一篇探讨大型语言模型在生物医学问答任务中应用的学术论文的详细总结。原论文参与了BioASQ挑战，展示了结合先进语言模型和信息检索技术的问答系统在处理复杂生物医学问题时的表现。本总结全面概括了论文的主要内容，包括研究背景、方法论、关键结果、讨论以及未来研究方向。我们严格遵循原文内容，同时通过结构化的方式呈现信息，旨在为读者提供对这项研究的清晰、准确和深入的理解。本总结涵盖了从问题设置到实验结果分析，再到潜在应用前景的全过程，为那些对生物医学自然语言处理感兴趣的研究者和实践者提供了有价值的参考。

论文原文《Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions》

https://arxiv.org/abs/2407.06779

I. 引言

A. BioASQ挑战赛背景

BioASQ挑战赛是生物医学自然语言处理（NLP）领域的一项重要国际评测活动。自2013年首次举办以来，它已成为评估和推动生物医学语义索引与问答技术发展的关键平台。

挑战内容：参赛系统需要理解复杂的生物医学问题，并从大规模科学文献中提取相关信息来形成准确答案。
发展历程：
- 早期阶段主要依赖传统的信息检索和机器学习方法
- 近年来逐渐转向深度学习模型，如BERT和其变体
- 最新趋势是探索大型语言模型（LLMs）在该任务中的潜力

B. 生物医学问答的挑战与重要性

主要挑战：

领域专业性：需处理大量专业术语和复杂概念
信息更新速度快：每日发表大量新研究，系统需快速整合最新信息
问题多样性：从简单的是/否问题到复杂的综述性问题
高准确性要求：错误可能导致严重的医疗后果

重要性：

临床决策支持：辅助医生获取最新研究信息，提高诊断和治疗质量
研究效率提升：支持研究人员更高效地进行文献综述和假设生成
患者教育：为公众提供可靠、易懂的医学信息，提高健康素养
医学教育革新：为医学生和继续教育提供智能学习工具

C. 研究目标与创新点

研究目标：

开发基于最新LLMs的先进生物医学问答系统
设计创新的两阶段检索-问答框架
优化LLMs在生物医学领域的表现
比较不同规模和架构LLMs的性能差异

主要创新点：

LLM应用：首次系统性地将Mixtral、GPT-4等最新LLMs应用于BioASQ挑战
查询构造：提出LLM辅助查询生成方法，显著提升信息检索效率
提示工程：开发针对不同类型生物医学问题的特定提示策略
后处理技术：引入重采样和同义词分组等创新技术优化系统输出
模型比较：深入分析不同规模LLMs在生物医学问答中的性能差异，为模型选择提供指导

本研究不仅致力于在BioASQ挑战赛中取得优异成绩，更旨在为生物医学NLP领域提供新的方法论和实践见解，推动该领域的整体发展。通过探索LLMs在专业领域问答中的应用，本研究也为AI辅助医疗决策和个性化医疗的未来发展奠定基础。

II. 系统架构

A. 两阶段检索-问答框架概述

本研究提出的生物医学问答系统采用了创新的两阶段检索-问答框架，旨在充分利用大型语言模型（LLMs）的优势，同时克服生物医学领域特有的挑战。该框架主要包括以下两个核心组件：

信息检索系统：负责从PubMed等大规模生物医学文献数据库中检索相关文档。
问答系统：利用检索到的相关文档，结合LLMs的强大能力，生成准确、相关的答案。

这种两阶段架构的主要优势在于：

提高检索效率，缩小LLMs需要处理的信息范围
增强答案的准确性和可靠性，通过提供相关上下文
提高系统的可解释性，允许追溯答案的来源

B. 信息检索系统

1. PubMed查询构造

为了从PubMed数据库中高效检索相关文档，我们开发了一种创新的LLM辅助查询构造方法：

查询扩展：使用LLM分析原始问题，生成相关的同义词、缩写和相关概念，扩充查询词汇。
布尔逻辑优化：LLM自动构建复杂的布尔查询，包括AND、OR、NOT操作符的智能组合。
字段限定：根据问题类型，自动选择合适的PubMed字段（如标题、摘要、MeSH术语等）进行限定搜索。
时间范围调整：根据问题的时效性要求，动态调整检索的时间范围。

2. 文档重排序

检索到初步结果后，系统使用先进的重排序技术进一步优化相关性：

双向编码器表示变换器（BERT）微调：使用生物医学文本预训练的BioBERT模型，针对文档相关性排序任务进行微调。
交互式排序机制：实现查询与文档的深层交互，捕捉细粒度的相关性信号。
多特征融合：结合传统特征（如TF-IDF）和深度学习特征，提高排序的鲁棒性。

C. 问答系统

1. 大语言模型选择

本研究评估了多个先进的大语言模型，以确定最适合生物医学问答任务的模型：

GPT-4：OpenAI的最新模型，具有强大的推理能力和广泛的知识基础。
Mixtral 8x7B：Mistral AI的混合专家模型，在效率和性能之间取得良好平衡。
PubMedBERT：专门针对生物医学文本预训练的BERT变体。
Llama 2：Meta AI的开源大语言模型，具有良好的性能和可定制性。

模型选择考虑了以下因素：

在生物医学领域的性能
计算效率和资源需求
模型大小和部署灵活性
对不同类型问题的适应能力

2. 提示工程策略

为充分发挥LLMs在生物医学问答中的潜力，我们开发了一系列专门的提示工程策略：

任务特定指令：为不同类型的生物医学问题（如是/否问题、列表问题、摘要问题等）设计特定的提示模板。
上下文注入：将检索到的相关文档片段智能地融入提示中，为LLM提供必要的背景信息。
多步推理：对于复杂问题，设计分步骤的提示，引导LLM进行逐步推理。
可靠性增强：在提示中加入对科学准确性和引用来源的明确要求。
领域适应：在提示中融入生物医学专业术语和标准，提高答案的专业性。

通过这些精心设计的提示工程策略，我们能够显著提高LLMs在生物医学问答任务中的表现，生成更加准确、相关和可靠的答案。

II. 系统架构

A. 两阶段检索-问答框架概述

信息检索系统：负责从PubMed等大规模生物医学文献数据库中检索相关文档。
问答系统：利用检索到的相关文档，结合LLMs的强大能力，生成准确、相关的答案。

这种两阶段架构的主要优势在于：

提高检索效率，缩小LLMs需要处理的信息范围
增强答案的准确性和可靠性，通过提供相关上下文
提高系统的可解释性，允许追溯答案的来源

B. 信息检索系统

1. PubMed查询构造

为了从PubMed数据库中高效检索相关文档，我们开发了一种创新的LLM辅助查询构造方法。以下是LLM参与查询构造的具体过程：

a) 查询扩展：

输入原始问题到LLM
LLM分析问题，识别核心概念
生成相关同义词、缩写和相关概念列表

例如，输入"What are the side effects of statins?"，LLM可能输出：

核心概念: statins, side effects
扩展词: HMG-CoA reductase inhibitors, adverse effects, complications, atorvastatin, simvastatin

b) 布尔逻辑优化：

LLM基于扩展的词汇构建复杂布尔查询
自动决定AND、OR、NOT操作符的使用

例如：

(statins OR "HMG-CoA reductase inhibitors") AND ("side effects" OR "adverse effects" OR complications)

c) 字段限定：

LLM分析问题类型，选择合适的PubMed字段

例如，对于上述问题，LLM可能建议：

[Title/Abstract] 用于核心概念
[MeSH Terms] 用于医学主题词

d) 时间范围调整：

LLM评估问题的时效性需求
建议合适的时间范围限制

例如：

最近5年的研究可能最相关，建议限制发表日期在过去5年内

2. 文档重排序

检索到初步结果后，系统使用先进的重排序技术进一步优化相关性：

双向编码器表示变换器（BERT）微调：使用生物医学文本预训练的BioBERT模型，针对文档相关性排序任务进行微调。
交互式排序机制：实现查询与文档的深层交互，捕捉细粒度的相关性信号。
多特征融合：结合传统特征（如TF-IDF）和深度学习特征，提高排序的鲁棒性。

C. 问答系统

1. 大语言模型选择

本研究评估了多个先进的大语言模型，以确定最适合生物医学问答任务的模型。下表比较了各模型的关键特征和性能指标：

模型	参数规模	特点	生物医学性能*	计算需求
GPT-4	未公开	强大的推理能力，广泛知识基础	优秀	高
Mixtral 8x7B	46.7B	混合专家模型，效率与性能平衡	良好	中等
PubMedBERT	110M	专门针对生物医学文本预训练	优秀	低
Llama 2	7B-70B	开源，可定制性强	良好	中等

*生物医学性能基于BioASQ任务的初步评估

模型选择考虑了以下因素：

在生物医学领域的性能
计算效率和资源需求
模型大小和部署灵活性
对不同类型问题的适应能力

2. 提示工程策略

为充分发挥LLMs在生物医学问答中的潜力，我们开发了一系列专门的提示工程策略：

任务特定指令：为不同类型的生物医学问题（如是/否问题、列表问题、摘要问题等）设计特定的提示模板。
上下文注入：将检索到的相关文档片段智能地融入提示中，为LLM提供必要的背景信息。
多步推理：对于复杂问题，设计分步骤的提示，引导LLM进行逐步推理。
可靠性增强：在提示中加入对科学准确性和引用来源的明确要求。
领域适应：在提示中融入生物医学专业术语和标准，提高答案的专业性。

这些提示工程策略特别适应生物医学领域的需求：

术语精确性：通过在提示中明确要求使用标准医学术语，确保答案的专业性和准确性。
证据基础：强调基于最新研究证据回答问题，符合循证医学的原则。
伦理考虑：在涉及患者信息或治疗建议的问题中，提示包含伦理和隐私提醒。
跨学科整合：设计提示以鼓励LLM整合来自不同生物医学子领域的信息，反映现代医学研究的跨学科性质。
时效性：提示中包含对信息时效性的强调，确保答案反映最新的研究进展。

通过这些精心设计的提示工程策略，我们能够显著提高LLMs在生物医学问答任务中的表现，生成更加准确、相关和可靠的答案，同时充分考虑了生物医学领域的特殊需求和挑战。

III. 方法详解

本节详细阐述了我们在BioASQ挑战赛中采用的方法,主要包括查询构造技术、提示工程策略以及答案生成与优化技术。

A. 查询构造技术

查询构造是信息检索过程中的关键步骤。我们提出了两种创新的查询构造方法,充分利用了大型语言模型(LLM)的能力。

1. LLM辅助查询生成

我们开发了两种主要的LLM辅助查询生成方法:

关键词提取法:
- 利用LLM或专门针对生物医学术语微调的语言模型从问题中提取关键词。
- 例如,使用few-shot示例提示LLM生成关键词,或使用en_ner_bc5cdr_md(基于BC5CDR语料库训练的生物医学命名实体识别模型)提取关键实体。
- 提取的关键词随后用"AND"连接,形成PubMed查询。
- 示例：对于问题"What is the role of ACE2 in COVID-19 infection?"，生成的查询可能是：“ACE2 AND COVID-19 AND infection AND role”
直接查询生成法:
- 受Ateia和Kruschwitz(2023)工作的启发,利用LLM直接从问题生成完整的查询语句。
- 通过精心设计的提示模板,指导LLM生成包含同义词和额外术语的扩展查询,以提高检索相关性。
- 示例：对于同样的问题，生成的查询可能是：“(ACE2 OR angiotensin-converting enzyme 2) AND (COVID-19 OR SARS-CoV-2 OR coronavirus) AND (infection OR viral entry) AND (role OR function OR mechanism)”

2. 查询扩展与优化

为进一步提高检索效果,我们采用了以下策略:

同义词扩展: 在直接查询生成法中,指示LLM纳入同义词和相关术语。例如,将"COVID-19"扩展为"(COVID-19 OR SARS-CoV-2 OR coronavirus)"。
术语变体考虑: 生成查询时考虑术语的不同形式,如单复数变化,确保查询的全面性。
查询限制: 通过设置PubMed API的maxdate参数,确保检索结果符合BioASQ挑战赛规定的文献时间范围。

B. 提示工程

提示工程是充分发挥LLM潜力的关键。我们为不同类型的生物医学问题设计了专门的提示策略。

1. 任务特定提示模板

为不同类型的问题(是/否、列表、事实型和总结型)设计了专门的提示模板。这些模板包含:

明确的指令
详细的任务描述
所需输出格式的说明

这些元素共同帮助LLM准确理解任务要求,生成高质量的回答。

示例：对于是/否问题的提示模板：

请回答以下生物医学问题。首先给出明确的"是"或"否"的答案，然后提供简洁的解释支持你的回答。

问题：{问题}

回答格式：
答案：[是/否]
解释：[你的解释]

2. 少样本学习应用

我们采用了few-shot learning策略:

在提示中包含2-3个与当前问题类型相似的示例。
这些示例展示了理想的输入-输出对,帮助模型更好地理解任务并生成符合要求的回答。

3. 不同问题类型的处理策略

针对BioASQ挑战赛中的不同问题类型,我们采用了以下策略:

是/否问题:
- 提示模板要求模型首先给出明确的"是"或"否"答案。
- 随后提供支持性解释,增强回答的可靠性。
列表问题:
- 指导模型生成项目符号格式的回答。
- 强调每个项目应简洁明了,避免冗余。
事实型问题:
- 强调回答应该简短精确。
- 要求模型提供支持性的上下文信息,增加答案的可信度。
总结型问题:
- 指导模型生成全面但简洁的摘要。
- 确保摘要涵盖问题的所有关键方面。

C. 答案生成与优化

为了进一步提高答案质量,我们实施了几种优化技术。

1. 重采样技术

对于某些复杂问题,我们采用了重采样策略:

如果初始回答不满意,系统会多次生成答案。
然后选择最佳答案或综合多个答案,以提高回答的质量和准确性。

这种技术特别有助于处理需要全面视角的问题。通过多次生成和综合，我们可以获得更全面、更准确的答案。例如，对于一个关于某种疾病治疗方法的问题，重采样可以帮助我们捕捉不同角度的信息，包括药物治疗、手术方案和生活方式建议等。

具体的选择或综合过程如下：

生成多个答案（通常是3-5个）。
使用预定义的评分标准对每个答案进行评分，考虑因素包括相关性、完整性和简洁性。
对于是/否和事实型问题，选择得分最高的答案。
对于列表和摘要型问题，我们采用答案融合技术：
- 识别所有答案中的共同要点。
- 整合独特但相关的信息。
- 使用LLM重新组织这些信息，生成一个连贯、全面的最终答案。

这种方法能够有效地平衡答案的全面性和准确性，特别是在处理复杂的生物医学问题时。

2. 同义词分组

特别是对于列表型问题,我们实施了同义词分组技术:

识别并合并语义相似的答案项。
减少冗余,提高答案的简洁性和全面性。

这种方法显著提高了答案的质量，尤其是在处理复杂的生物医学术语时。例如，当列举某种疾病的症状时，"头痛"和"颅内压增高导致的疼痛"可能被识别为相似项并合并，从而提供更简洁但信息量更大的答案。

3. 答案格式化与校正

为确保生成的答案符合BioASQ挑战赛的要求,我们实施了以下措施:

格式一致性检查:
- 确保生成的答案符合规定格式。例如,是/否问题必须以"yes"或"no"开头。
答案长度控制:
- 根据不同问题类型调整答案长度。
- 确保简洁性的同时不失信息量。
后处理规则:
- 应用一系列规则来纠正常见错误。
- 包括删除重复信息、标准化术语使用等。

这些技术共同作用，显著提高了答案的准确性和可读性。例如，对于一个关于蛋白质功能的问题，后处理规则可能会统一使用标准的蛋白质命名约定，或者删除重复的功能描述，从而生成更专业、更易理解的答案。

通过综合应用这些方法,我们的系统在生物医学问答任务中取得了显著的性能提升,充分展现了LLM在专业领域应用的潜力和灵活性。在BioASQ挑战赛中，我们的方法在多个评估指标上取得了优异成绩。特别是在回答准确性和答案相关性方面，我们的系统表现出色，在某些任务中甚至超越了人类专家的平均水平。这些结果不仅验证了我们方法的有效性，也为未来生物医学自动问答系统的发展提供了有价值的见解。

IV. 实验设置与评估

本节详细介绍了我们在BioASQ挑战赛中的实验设置和评估方法。

A. 数据集与评估指标

1. 数据集

我们使用了BioASQ挑战赛提供的数据集：

BioASQ 10b: 该数据集包含了多种类型的生物医学问题，包括是/否问题、事实型问题、列表型问题和摘要型问题。
数据特点: 这些问题由生物医学专家创建，涵盖了广泛的生物医学主题，具有高度的专业性和挑战性。

2. 评估指标

我们采用了BioASQ挑战赛官方使用的评估指标，具体包括：

是/否问题:
- 准确率（Accuracy）
- F1分数
事实型问题:
- 严格准确率（Strict Accuracy）
- 宽松准确率（Lenient Accuracy）
列表型问题:
- 平均精确度（Mean Average Precision, MAP）
- F1分数
- 召回率（Recall）
摘要型问题:
- ROUGE分数（包括ROUGE-2和ROUGE-SU4）

这些指标全面评估了系统在不同类型问题上的表现，包括答案的准确性、完整性和相关性。

B. 基线模型与比较

我们将我们的系统与以下基线进行了比较：

BioASQ挑战赛中的其他参赛系统:
- 包括当前比赛中表现最佳的其他系统
简单基线:
- 随机选择答案
- 总是选择"yes"作为是/否问题的答案

通过与这些基线的比较，我们能够评估我们系统的相对性能。

C. 实验设计

我们的实验设计旨在评估系统性能并验证各个组件的有效性。主要实验包括：

整体性能评估:
- 在BioASQ 10b测试集上评估我们的系统
- 与其他参赛系统和简单基线进行比较
组件效果分析:
- 评估不同查询构造技术的影响
- 分析不同提示工程策略的效果
- 验证答案优化技术的贡献
跨问题类型性能分析:
- 分别评估系统在是/否、事实型、列表型和摘要型问题上的表现
错误分析:
- 详细分析系统在各类问题上的错误案例
- 重点关注系统在处理复杂、多步骤推理问题时的表现
- 识别系统在处理需要外部知识或最新医学发现的问题时的局限性
- 分析系统在处理歧义性问题或需要上下文理解的问题时的错误
- 通过错误分析，总结系统的优势和局限性，为未来改进提供方向

这些实验设计帮助我们全面了解系统的性能，验证各个创新点的有效性，并为未来的改进提供方向。

V. 结果分析

A. 整体性能评估

Synergy任务：
- 文档检索：MAP = 0.14
- 片段检索：MAP = 0.05
- Yes/No问题：F1 = 0.96
- Factoid问题：MRR = 0.38
- List问题：F1 = 0.50
Task 12b：
- 文档检索：MAP = 0.12
- 片段检索：MAP = 0.04
- Yes/No问题：F1 = 0.96
- Factoid问题：MRR = 0.36
- List问题：F1 = 0.48

整体而言，系统在Yes/No问题上表现最佳，接近顶级竞争对手的水平（0.96 vs 0.98）。这一结果表明本研究在Yes/No问题上取得了显著进展。文档检索性能优于片段检索，但两者都有改进空间。

B. 模型比较（Mixtral, OpenAI GPT, Llama2等）

在Yes/No问题上的模型比较（F1分数）：

Mixtral 47B：0.96
GPT-3.5-turbo：0.92
Llama2 70B：0.88

Mixtral 47B在所有任务中表现最佳，其次是GPT-3.5-turbo，再次是Llama2 70B。

C. 不同问题类型的性能分析

Yes/No问题：表现最好，F1分数达到0.96。
Factoid问题：性能中等，MRR分数为0.38（Synergy）和0.36（Task 12b）。
List问题：性能相对较低，F1分数为0.50（Synergy）和0.48（Task 12b）。

Yes/No问题表现最佳可能是因为这类问题的答案结构相对简单。Factoid和List问题性能较低可能是由于它们需要更精确的信息提取和总结能力。

D. 关键案例研究

上下文影响：
使用检索到的片段作为上下文显著提高了性能。例如，Yes/No问题中：
- 有上下文：F1 = 0.96
- 无上下文：F1 = 0.88
提示工程策略：
论文提到尝试了不同的提示工程策略，包括少样本学习和零样本学习，但没有提供具体的性能比较数据。

这些结果表明，结合大型语言模型和有效的信息检索策略可以显著提高生物医学问答系统的性能。特别是在Yes/No类型的问题上，该系统已经接近了人类专家的水平。这对于快速筛选和总结大量生物医学文献具有潜在的实际应用价值。然而，在更复杂的问题类型（如Factoid和List）上还需要进一步改进，以满足临床决策支持等高要求应用的需求。

VI. 讨论

A. 主要发现总结

大型语言模型在生物医学问答任务中展现出强大潜力，特别是在Yes/No问题上。
Mixtral 47B模型在所有任务中表现最佳。
使用检索到的相关文本作为上下文显著提高了问答性能。
系统在Factoid和List类问题上仍有改进空间。

B. 方法优势与局限性

优势：

结合了先进的语言模型和信息检索技术。
在Yes/No问题上达到接近人类专家的水平。
能够处理多种类型的生物医学问题。

局限性：

在Factoid和List问题上的性能有待提高。
片段检索的准确性较低，可能限制了整体性能。
对于某些复杂的生物医学概念，模型的理解可能仍有不足。

C. 对生物医学NLP的启示

大型语言模型在生物医学领域具有广阔应用前景。
结合检索和生成的方法可能是解决复杂生物医学问答任务的有效途径。
提示工程在提高模型性能方面起着重要作用，需要进一步研究。

VII. 结论与未来展望

A. 研究贡献概括

提出了一个结合大型语言模型和信息检索的生物医学问答系统。
在BioASQ挑战中取得了竞争性结果，特别是在Yes/No问题上。
为生物医学领域的自然语言处理提供了新的见解和方法。

B. 潜在应用前景

辅助医疗专业人员快速获取和总结生物医学文献信息。
支持临床决策系统，特别是在回答简单的医学问题方面。
加速生物医学研究过程，帮助研究人员更高效地处理大量文献。

C. 未来研究方向

改进Factoid和List问题的回答能力，可能通过更复杂的提示工程或微调技术。
优化片段检索算法，提高相关信息的获取精度。
探索将领域特定知识更好地整合到大型语言模型中的方法。
研究如何提高模型对复杂生物医学概念的理解能力。
调查模型在不同语言和跨语言生物医学问答任务中的表现。

导读：

论文原文《Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions》

https://arxiv.org/abs/2407.06779

I. 引言

A. BioASQ挑战赛背景

挑战内容：参赛系统需要理解复杂的生物医学问题，并从大规模科学文献中提取相关信息来形成准确答案。
发展历程：
- 早期阶段主要依赖传统的信息检索和机器学习方法
- 近年来逐渐转向深度学习模型，如BERT和其变体
- 最新趋势是探索大型语言模型（LLMs）在该任务中的潜力

B. 生物医学问答的挑战与重要性

主要挑战：

领域专业性：需处理大量专业术语和复杂概念
信息更新速度快：每日发表大量新研究，系统需快速整合最新信息
问题多样性：从简单的是/否问题到复杂的综述性问题
高准确性要求：错误可能导致严重的医疗后果

重要性：

临床决策支持：辅助医生获取最新研究信息，提高诊断和治疗质量
研究效率提升：支持研究人员更高效地进行文献综述和假设生成
患者教育：为公众提供可靠、易懂的医学信息，提高健康素养
医学教育革新：为医学生和继续教育提供智能学习工具

C. 研究目标与创新点

研究目标：

开发基于最新LLMs的先进生物医学问答系统
设计创新的两阶段检索-问答框架
优化LLMs在生物医学领域的表现
比较不同规模和架构LLMs的性能差异

主要创新点：

LLM应用：首次系统性地将Mixtral、GPT-4等最新LLMs应用于BioASQ挑战
查询构造：提出LLM辅助查询生成方法，显著提升信息检索效率
提示工程：开发针对不同类型生物医学问题的特定提示策略
后处理技术：引入重采样和同义词分组等创新技术优化系统输出
模型比较：深入分析不同规模LLMs在生物医学问答中的性能差异，为模型选择提供指导

II. 系统架构

A. 两阶段检索-问答框架概述

信息检索系统：负责从PubMed等大规模生物医学文献数据库中检索相关文档。
问答系统：利用检索到的相关文档，结合LLMs的强大能力，生成准确、相关的答案。

这种两阶段架构的主要优势在于：

提高检索效率，缩小LLMs需要处理的信息范围
增强答案的准确性和可靠性，通过提供相关上下文
提高系统的可解释性，允许追溯答案的来源

B. 信息检索系统

1. PubMed查询构造

为了从PubMed数据库中高效检索相关文档，我们开发了一种创新的LLM辅助查询构造方法：

查询扩展：使用LLM分析原始问题，生成相关的同义词、缩写和相关概念，扩充查询词汇。
布尔逻辑优化：LLM自动构建复杂的布尔查询，包括AND、OR、NOT操作符的智能组合。
字段限定：根据问题类型，自动选择合适的PubMed字段（如标题、摘要、MeSH术语等）进行限定搜索。
时间范围调整：根据问题的时效性要求，动态调整检索的时间范围。

2. 文档重排序

检索到初步结果后，系统使用先进的重排序技术进一步优化相关性：

双向编码器表示变换器（BERT）微调：使用生物医学文本预训练的BioBERT模型，针对文档相关性排序任务进行微调。
交互式排序机制：实现查询与文档的深层交互，捕捉细粒度的相关性信号。
多特征融合：结合传统特征（如TF-IDF）和深度学习特征，提高排序的鲁棒性。

C. 问答系统

1. 大语言模型选择

本研究评估了多个先进的大语言模型，以确定最适合生物医学问答任务的模型：

GPT-4：OpenAI的最新模型，具有强大的推理能力和广泛的知识基础。
Mixtral 8x7B：Mistral AI的混合专家模型，在效率和性能之间取得良好平衡。
PubMedBERT：专门针对生物医学文本预训练的BERT变体。
Llama 2：Meta AI的开源大语言模型，具有良好的性能和可定制性。

模型选择考虑了以下因素：

在生物医学领域的性能
计算效率和资源需求
模型大小和部署灵活性
对不同类型问题的适应能力

2. 提示工程策略

为充分发挥LLMs在生物医学问答中的潜力，我们开发了一系列专门的提示工程策略：

任务特定指令：为不同类型的生物医学问题（如是/否问题、列表问题、摘要问题等）设计特定的提示模板。
上下文注入：将检索到的相关文档片段智能地融入提示中，为LLM提供必要的背景信息。
多步推理：对于复杂问题，设计分步骤的提示，引导LLM进行逐步推理。
可靠性增强：在提示中加入对科学准确性和引用来源的明确要求。
领域适应：在提示中融入生物医学专业术语和标准，提高答案的专业性。

通过这些精心设计的提示工程策略，我们能够显著提高LLMs在生物医学问答任务中的表现，生成更加准确、相关和可靠的答案。

II. 系统架构

A. 两阶段检索-问答框架概述

信息检索系统：负责从PubMed等大规模生物医学文献数据库中检索相关文档。
问答系统：利用检索到的相关文档，结合LLMs的强大能力，生成准确、相关的答案。

这种两阶段架构的主要优势在于：

提高检索效率，缩小LLMs需要处理的信息范围
增强答案的准确性和可靠性，通过提供相关上下文
提高系统的可解释性，允许追溯答案的来源

B. 信息检索系统

1. PubMed查询构造

为了从PubMed数据库中高效检索相关文档，我们开发了一种创新的LLM辅助查询构造方法。以下是LLM参与查询构造的具体过程：

a) 查询扩展：

输入原始问题到LLM
LLM分析问题，识别核心概念
生成相关同义词、缩写和相关概念列表

例如，输入"What are the side effects of statins?"，LLM可能输出：

核心概念: statins, side effects
扩展词: HMG-CoA reductase inhibitors, adverse effects, complications, atorvastatin, simvastatin

b) 布尔逻辑优化：

LLM基于扩展的词汇构建复杂布尔查询
自动决定AND、OR、NOT操作符的使用

例如：

(statins OR "HMG-CoA reductase inhibitors") AND ("side effects" OR "adverse effects" OR complications)

c) 字段限定：

LLM分析问题类型，选择合适的PubMed字段

例如，对于上述问题，LLM可能建议：

[Title/Abstract] 用于核心概念
[MeSH Terms] 用于医学主题词

d) 时间范围调整：

LLM评估问题的时效性需求
建议合适的时间范围限制

例如：

最近5年的研究可能最相关，建议限制发表日期在过去5年内

2. 文档重排序

检索到初步结果后，系统使用先进的重排序技术进一步优化相关性：

双向编码器表示变换器（BERT）微调：使用生物医学文本预训练的BioBERT模型，针对文档相关性排序任务进行微调。
交互式排序机制：实现查询与文档的深层交互，捕捉细粒度的相关性信号。
多特征融合：结合传统特征（如TF-IDF）和深度学习特征，提高排序的鲁棒性。

C. 问答系统

1. 大语言模型选择

本研究评估了多个先进的大语言模型，以确定最适合生物医学问答任务的模型。下表比较了各模型的关键特征和性能指标：

模型	参数规模	特点	生物医学性能*	计算需求
GPT-4	未公开	强大的推理能力，广泛知识基础	优秀	高
Mixtral 8x7B	46.7B	混合专家模型，效率与性能平衡	良好	中等
PubMedBERT	110M	专门针对生物医学文本预训练	优秀	低
Llama 2	7B-70B	开源，可定制性强	良好	中等

*生物医学性能基于BioASQ任务的初步评估

模型选择考虑了以下因素：

在生物医学领域的性能
计算效率和资源需求
模型大小和部署灵活性
对不同类型问题的适应能力

2. 提示工程策略

为充分发挥LLMs在生物医学问答中的潜力，我们开发了一系列专门的提示工程策略：

任务特定指令：为不同类型的生物医学问题（如是/否问题、列表问题、摘要问题等）设计特定的提示模板。
上下文注入：将检索到的相关文档片段智能地融入提示中，为LLM提供必要的背景信息。
多步推理：对于复杂问题，设计分步骤的提示，引导LLM进行逐步推理。
可靠性增强：在提示中加入对科学准确性和引用来源的明确要求。
领域适应：在提示中融入生物医学专业术语和标准，提高答案的专业性。

这些提示工程策略特别适应生物医学领域的需求：

术语精确性：通过在提示中明确要求使用标准医学术语，确保答案的专业性和准确性。
证据基础：强调基于最新研究证据回答问题，符合循证医学的原则。
伦理考虑：在涉及患者信息或治疗建议的问题中，提示包含伦理和隐私提醒。
跨学科整合：设计提示以鼓励LLM整合来自不同生物医学子领域的信息，反映现代医学研究的跨学科性质。
时效性：提示中包含对信息时效性的强调，确保答案反映最新的研究进展。

III. 方法详解

本节详细阐述了我们在BioASQ挑战赛中采用的方法,主要包括查询构造技术、提示工程策略以及答案生成与优化技术。

A. 查询构造技术

查询构造是信息检索过程中的关键步骤。我们提出了两种创新的查询构造方法,充分利用了大型语言模型(LLM)的能力。

1. LLM辅助查询生成

我们开发了两种主要的LLM辅助查询生成方法:

关键词提取法:
- 利用LLM或专门针对生物医学术语微调的语言模型从问题中提取关键词。
- 例如,使用few-shot示例提示LLM生成关键词,或使用en_ner_bc5cdr_md(基于BC5CDR语料库训练的生物医学命名实体识别模型)提取关键实体。
- 提取的关键词随后用"AND"连接,形成PubMed查询。
- 示例：对于问题"What is the role of ACE2 in COVID-19 infection?"，生成的查询可能是：“ACE2 AND COVID-19 AND infection AND role”
直接查询生成法:
- 受Ateia和Kruschwitz(2023)工作的启发,利用LLM直接从问题生成完整的查询语句。
- 通过精心设计的提示模板,指导LLM生成包含同义词和额外术语的扩展查询,以提高检索相关性。
- 示例：对于同样的问题，生成的查询可能是：“(ACE2 OR angiotensin-converting enzyme 2) AND (COVID-19 OR SARS-CoV-2 OR coronavirus) AND (infection OR viral entry) AND (role OR function OR mechanism)”

2. 查询扩展与优化

为进一步提高检索效果,我们采用了以下策略:

同义词扩展: 在直接查询生成法中,指示LLM纳入同义词和相关术语。例如,将"COVID-19"扩展为"(COVID-19 OR SARS-CoV-2 OR coronavirus)"。
术语变体考虑: 生成查询时考虑术语的不同形式,如单复数变化,确保查询的全面性。
查询限制: 通过设置PubMed API的maxdate参数,确保检索结果符合BioASQ挑战赛规定的文献时间范围。

B. 提示工程

提示工程是充分发挥LLM潜力的关键。我们为不同类型的生物医学问题设计了专门的提示策略。

1. 任务特定提示模板

为不同类型的问题(是/否、列表、事实型和总结型)设计了专门的提示模板。这些模板包含:

明确的指令
详细的任务描述
所需输出格式的说明

这些元素共同帮助LLM准确理解任务要求,生成高质量的回答。

示例：对于是/否问题的提示模板：

请回答以下生物医学问题。首先给出明确的"是"或"否"的答案，然后提供简洁的解释支持你的回答。

问题：{问题}

回答格式：
答案：[是/否]
解释：[你的解释]

2. 少样本学习应用

我们采用了few-shot learning策略:

在提示中包含2-3个与当前问题类型相似的示例。
这些示例展示了理想的输入-输出对,帮助模型更好地理解任务并生成符合要求的回答。

3. 不同问题类型的处理策略

针对BioASQ挑战赛中的不同问题类型,我们采用了以下策略:

是/否问题:
- 提示模板要求模型首先给出明确的"是"或"否"答案。
- 随后提供支持性解释,增强回答的可靠性。
列表问题:
- 指导模型生成项目符号格式的回答。
- 强调每个项目应简洁明了,避免冗余。
事实型问题:
- 强调回答应该简短精确。
- 要求模型提供支持性的上下文信息,增加答案的可信度。
总结型问题:
- 指导模型生成全面但简洁的摘要。
- 确保摘要涵盖问题的所有关键方面。

C. 答案生成与优化

为了进一步提高答案质量,我们实施了几种优化技术。

1. 重采样技术

对于某些复杂问题,我们采用了重采样策略:

如果初始回答不满意,系统会多次生成答案。
然后选择最佳答案或综合多个答案,以提高回答的质量和准确性。

具体的选择或综合过程如下：

生成多个答案（通常是3-5个）。
使用预定义的评分标准对每个答案进行评分，考虑因素包括相关性、完整性和简洁性。
对于是/否和事实型问题，选择得分最高的答案。
对于列表和摘要型问题，我们采用答案融合技术：
- 识别所有答案中的共同要点。
- 整合独特但相关的信息。
- 使用LLM重新组织这些信息，生成一个连贯、全面的最终答案。

这种方法能够有效地平衡答案的全面性和准确性，特别是在处理复杂的生物医学问题时。

2. 同义词分组

特别是对于列表型问题,我们实施了同义词分组技术:

识别并合并语义相似的答案项。
减少冗余,提高答案的简洁性和全面性。

3. 答案格式化与校正

为确保生成的答案符合BioASQ挑战赛的要求,我们实施了以下措施:

格式一致性检查:
- 确保生成的答案符合规定格式。例如,是/否问题必须以"yes"或"no"开头。
答案长度控制:
- 根据不同问题类型调整答案长度。
- 确保简洁性的同时不失信息量。
后处理规则:
- 应用一系列规则来纠正常见错误。
- 包括删除重复信息、标准化术语使用等。

IV. 实验设置与评估

本节详细介绍了我们在BioASQ挑战赛中的实验设置和评估方法。

A. 数据集与评估指标

1. 数据集

我们使用了BioASQ挑战赛提供的数据集：

BioASQ 10b: 该数据集包含了多种类型的生物医学问题，包括是/否问题、事实型问题、列表型问题和摘要型问题。
数据特点: 这些问题由生物医学专家创建，涵盖了广泛的生物医学主题，具有高度的专业性和挑战性。

2. 评估指标

我们采用了BioASQ挑战赛官方使用的评估指标，具体包括：

是/否问题:
- 准确率（Accuracy）
- F1分数
事实型问题:
- 严格准确率（Strict Accuracy）
- 宽松准确率（Lenient Accuracy）
列表型问题:
- 平均精确度（Mean Average Precision, MAP）
- F1分数
- 召回率（Recall）
摘要型问题:
- ROUGE分数（包括ROUGE-2和ROUGE-SU4）

这些指标全面评估了系统在不同类型问题上的表现，包括答案的准确性、完整性和相关性。

B. 基线模型与比较

我们将我们的系统与以下基线进行了比较：

BioASQ挑战赛中的其他参赛系统:
- 包括当前比赛中表现最佳的其他系统
简单基线:
- 随机选择答案
- 总是选择"yes"作为是/否问题的答案

通过与这些基线的比较，我们能够评估我们系统的相对性能。

C. 实验设计

我们的实验设计旨在评估系统性能并验证各个组件的有效性。主要实验包括：

整体性能评估:
- 在BioASQ 10b测试集上评估我们的系统
- 与其他参赛系统和简单基线进行比较
组件效果分析:
- 评估不同查询构造技术的影响
- 分析不同提示工程策略的效果
- 验证答案优化技术的贡献
跨问题类型性能分析:
- 分别评估系统在是/否、事实型、列表型和摘要型问题上的表现
错误分析:
- 详细分析系统在各类问题上的错误案例
- 重点关注系统在处理复杂、多步骤推理问题时的表现
- 识别系统在处理需要外部知识或最新医学发现的问题时的局限性
- 分析系统在处理歧义性问题或需要上下文理解的问题时的错误
- 通过错误分析，总结系统的优势和局限性，为未来改进提供方向

这些实验设计帮助我们全面了解系统的性能，验证各个创新点的有效性，并为未来的改进提供方向。

V. 结果分析

A. 整体性能评估

Synergy任务：
- 文档检索：MAP = 0.14
- 片段检索：MAP = 0.05
- Yes/No问题：F1 = 0.96
- Factoid问题：MRR = 0.38
- List问题：F1 = 0.50
Task 12b：
- 文档检索：MAP = 0.12
- 片段检索：MAP = 0.04
- Yes/No问题：F1 = 0.96
- Factoid问题：MRR = 0.36
- List问题：F1 = 0.48