TCMBench: 用于评估中医药领域大型语言模型的全面基准

链接:https://arxiv.org/abs/2406.01126

原标题:TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine

日期:Submitted on 3 Jun 2024

摘要

大型语言模型(LLM)在各种自然语言处理任务中通过基准测试表现出色,包括在西医领域。然而,中医药(TCM)领域尚未涵盖专业评估基准,该领域历史悠久且影响深远。为了填补这一研究空白,我们介绍了TCMBench,一个用于评估LLM在中医药领域表现的全面基准。它包括TCM-ED数据集,包含来自TCM执业资格考试(TCMLE)的5,473个问题,包括1,300个具有权威分析的问题。它涵盖了TCMLE的核心组成部分,包括中医药基础和临床实践。为了评估LLM在回答问题准确性之外的能力,我们提出了TCMScore,这是一个用于评估LLM生成的中医药相关问题答案质量的指标。它全面考虑了中医药语义和知识的连贯性。在进行全面实验分析后,我们可以得出以下发现:(1)LLM在这项基准测试上的表现不令人满意,凸显了它们在中医药领域有显著的提升空间。(2)引入领域知识可以增强LLM的性能。然而,对于域内模型如ZhongJing-TCM,生成的分析文本质量有所下降,我们推测它们的微调过程影响了基本LLM的能力。(3)传统的文本生成质量指标,如Rouge和BertScore,容易受到文本长度和表面语义模糊性的影响,而像TCMScore这样的特定领域指标可以进一步补充和解释它们的评估结果。这些发现突显了LLM在中医药领域的能力和局限性,旨在为医学研究提供更深刻的帮助。

关键词:基准 · 传统中医 · 大语言模型 · 医疗与医学。

图1:中医与西医的区别。

1 引言

最近,大型语言模型(LLM)在提高自然语言理解和文本生成质量的准确性方面显示出显著的性能。新兴研究设计了各种LLM,如ChatMed3、HuaTuo和ZhongJing-TCM,凸显了LLM在医学领域的日益增长的需求。因此,标准化的医学基准对于有效地开发和应用LLM在医学领域至关重要,提供可靠和权威的评估。

流行的医学基准主要关注西医,例如MedMCQA和MultiMedQA。在这些基准中,MultiMedQA结合了新的在线医学查询,以减轻基于公共易访问数据源的评估中的数据污染问题。然而,医学系统之间存在显著差异,包括临床标准、程序和语言的差异,尤其是在中医(TCM)和西医之间的差异。TCM有着悠久而丰富的历史,对医疗保健做出了重大贡献。与西医的循证医学不同,TCM强调医生的临床经验。此外,他们在理论基础、诊断方法、治疗模式、预防概念和整体观点上存在显著差异,如图1所示。这些差异突显了TCM诊断、治疗和知识在医学领域的独特性。尽管有一些研究考虑了评估中医领域的基准[2,9],但它们也主要基于西医原则评估现代中医知识。因此,直接将现有的西医基准应用于评估TCM可能无法全面评估LLM在该领域的潜力和实际效用。最近,如ZhongJing-TCM这样的TCM LLM主要依赖于医生的主观评估模型性能,这消耗了宝贵的时间并导致效率低下。这凸显了中医领域迫切需要标准化基准,以提供LLM性能的客观和可靠的评估。

为了填补这些空白并适应TCM知识的独特特性,我们介绍了一个新的全面基准TCMBench,以补充先前的医学基准。它源自TCM执业资格考试(TCMLE),专门针对TCM领域定制。为了防止数据污染,我们构建了一个大规模的TCM评估数据集TCM-ED,使用实际的TCMLE练习问题。它包含5,473个问答(Q&A)对,其中1,300个数据对有标准分析,确保了数据质量的可靠性。我们手动从原始数据集中选择问题,以确认TCM-ED中涵盖所有TCM分支,确保在TCM主题范围内广泛覆盖。LLM在所有TCM分支的准确性如图2所示。值得注意的是,由于TCM的独特术语,例如“受凉风寒”和“风寒外袭”,尽管字面匹配度低,但传达相同的意思。因此,仅基于字面匹配的传统文本生成指标[9,2]或基于中文语义表示模型来评估TCM中两段文本之间的语义一致性可能不合适。基于这些发现,我们引入了一个自动指标TCMScore,用于评估TCM语义和知识的连贯性。它结合了TCM术语的匹配和生成分析与标准分析之间的语义一致性。

图2:不同LLM在TCMBench不同中医分支上的表现。

我们进行了广泛的实验,结合了各种指标,从不同角度对评估LLM在TCM中理解、分析和应用知识的能力进行了详细分析。本基准的主要发现如下:

– 在这个基准上,LLM的当前表现不令人满意,表明它们在TCM中的应用有很大的提升空间。然而,具有数百亿参数的一般LLM在TCM中应用潜力较大。

– 图2显示,没有专门调优的一般LLM倾向于西医。然而,注入专业的TCM知识和相关语言文化语料可以显著提高LLM对TCM上下文的理解。

– 从表达质量和人工评估来看,用TCM领域知识微调LLM会削弱它们在逻辑推理、知识分析和语义表达方面的基本能力。因此,在预训练阶段保留这些核心能力至关重要。

– 依赖字面匹配或语义相似度的表达质量指标容易受到文本长度和表面语义模糊性等因素的影响。我们工作中引入的TCMScore有效地解决了这一局限性,可以更好地补充和解释LLM在上述指标下在TCM语义和知识一致性方面的表现。

总之,我们提出了一个与TCM要求相匹配的全面基准,旨在展示LLM在TCM领域的能力和局限性,并改进医学研究的发展。

2 相关工作

随着LLM的快速发展,基准测试对于推动自然语言处理(NLP)领域,特别是在医学等专业化领域的进步至关重要。针对不同地区和医学系统定制的各种医学问答基准对于评估LLM的有效性起到了重要作用。例如,Kuang等人[7]利用美国医学执照考试(USMLE)的问题来评估ChatGPT,而MedMCQA[11]则开发了一个使用印度医学数据的基准。CBLUE[19]和PromptCBLUE[22]专注于基于中国生物医学信息的评估。此外,MultiMedQA[12]结合了六个现有的医学基准数据集,如MedQA[5]和MedMCQA,以通过新的在线数据集减轻数据污染。它还通过基于有限数量医生标注样本的指令微调进行人工评估。然而,现有的基准主要关注西医系统,缺乏TCM内容。TCM被世界卫生组织认可为一种有效的补充和替代医学系统,在理论结构、诊断和治疗标准上与西医有显著差异[20]。因此,基于西医的基准无法充分评估LLM在TCM中的表现。尽管像CMExam[9]和MedBench[2]这样的基准已经被提出用于CNMLE,但它们也侧重于基于西医原则的现代中医问题。此外,它们仅提供了关于TCM的粗略统计数据,并简要使用了Rouge等指标进行分析。然而,由于TCM独特的术语表达特征,这些基准无法全面评估LLM在回答TCM问题方面的表现。学术界在评估LLM在TCM领域的表现方面仍然缺乏全面的基准。在对ZhongJing-TCM的评估中,仅使用了医生的主观评估来评估模型性能。然而,手动评估耗时且劳动密集,使得难以实现大规模应用。总的来说,迫切需要开发适应TCM特征的客观和系统的LLM评估基准,以填补该领域评估标准方面的空白。

图3:TCMBench的概述。它包括两部分:(1)左侧是TCM-ED数据集的构建过程。(2)右侧是TCMBench的评估过程。底部部分展示了TMNLI数据集、TCM-Deberta模型以及TCMScore指标。

3 提出的基准

3.1 概述

我们提出了一个全面的基准,TCMBench,用于评估LLM在中医药领域的有效性,如图3所示。它包括一个评估数据集,TCM-ED,包含来自TCMLE的5,473个实际练习问题,这些问题反映了中国获得中医药执业资格所需的基本医学知识和推理逻辑。为了创建一个与专家认知对齐的自动评估指标,我们首先收集了9,788个最近的真实问题及其分析,以构建第一个TCM自然语言推理(NLI)数据集,TMNLI。然后我们引入了TCM-Deberta,一个更稳定的语义推理模型,以有效评估TCM语义的一致性。此外,我们在计算TCMScore时包含了一个任务,以评估TCM术语匹配,揭示知识的一致性。最后,我们使用多个指标来评估LLM表达TCM知识的能力和质量。

3.2 构建和统计
TCM-ED

TCM-ED TCMLE评估申请者是否拥有作为中医医师所需的专业知识和技能。因此,我们收集了5,473个代表性的练习问题。其中,我们收集的数据不包含个人信息,而是专注于选择能够充分反映和代表TCM理论知识和实践技能的数据实例。TCMLE中的多项选择题如图3左侧所示,包括三种类型:

图4:TCM-ED中的中医分支。

表1:TCM-ED(上)和TMNLI(下)的统计信息。

  • 单句最佳选择题(A1)和病例摘要最佳选择题(A2)类型:由问题陈述和五个选项组成,其中有一个正确答案,如图1所示(附录文件)。

  • 病例组最佳选择题(A3)类型:问题陈述呈现一个以患者为中心的病例,随后是多个子问题,每个子问题提供五个选项,其中有一个正确答案。它主要侧重于临床应用,如图2所示(附录文件)。

  • 标准兼容性问题(B1)类型:多个子问题共享相同的五个选项,其中每个选项可以选择零次、一次或多次。在五个选项中,每个子问题都有一个正确答案,如图3所示(附录文件)。

具体来说,我们根据专家的建议,手动筛选TCMLE的原始练习题库,以确保TCM-ED涵盖TCMLE中发现的全部问题类型和中医分支。首先,我们清理了原始数据中的PDF格式。然后,我们使用规则模板提取问题、选项、正确答案和标准分析。接着,我们将信息转换为结构化的JSON格式。随后,我们根据专家指导,在每个特定医学分支的每种问题类型下,从原始题库中随机选择100个问题。如果某个分支的问题少于100个,则全部选择。TCM-ED的详细统计信息见表1的上半部分,表明在A1/A2类型的问题中,每个中医分支都包含完整的100个问题。此外,图4说明TCM-ED中所有问题在各个分支的分布相对平衡,确保评估结果不会因分支分布而产生偏见。这确保了评估的公平性和全面性。

表2:LLMs的统计信息。

TMNLI

TMNLI 由于TCM术语的独特性,简单的字面匹配或中文语义相似度计算无法准确衡量TCM领域的语义一致性。通常,NLI指标通常用于评估摘要的忠实度。以前的工作使用在MultiNLI(MNLI)数据集[15]上训练的蕴含分类器来确定摘要是否与上下文一致。然而,由于MNLI数据集是英文的,与TCM术语存在显著差异。因此,我们构建了一个特定的TCM NLI数据集,TMNLI。我们从TCMLE中选择了9,788个最近的考试问题及其标准分析,覆盖了图4中显示的三个问题类型和所有TCM分支。遵循MNLI数据集的设置,TMNLI由三个部分组成:前提、假设和标签。我们利用规则模板将问题和其正确答案组合成一个称为QWA的声明,作为前提。然后,我们将标准解析视为假设,并将两者之间的关系标记为蕴含。此外,我们使用BM25算法根据与QWA的相似度对其他分析进行排名,从排名前20至100的范围内随机选择多达三个分析作为假设,标记为矛盾。我们旨在增加识别前提和假设之间关系难度。因此,我们生成了29,497个NLI数据。受以前工作[6]的启发,我们考虑如果两个句子之间有稳定的语义一致性,那么应该能够从前提推导出假设,反之亦然。鉴于TMNLI中QWA和标准分析的长度差异较大,我们对TMNLI中数据对的一半前提和假设进行置换,以消除长度差异引起偏见。详细的统计信息见表1的下半部分。

4 评估

4.1 模型

为了评估TCM领域的医疗能力,我们使用TCMBench来评估各种LLM在通用和医学领域。具体来说,我们利用超过100亿规模的LLM,如商业(闭源)的GPT-4和ChatGPT,以及支持中文的开源ChatGLM。此外,我们还评估了通用中文模型Chinese-LlaMA和专注于西医的中国医学特定模型HuaTuo,这两个模型都是从LlaMa-7B微调而来的。Zhongjing-TCM专注于TCM妇科问答任务。统计信息见表2。

表3:两个测试数据集上不同NLI模型的准确率。

4.2 实验设置

我们进行了广泛的实验,以评估LLM的零样本性能,确保它们能够以多种选择格式响应并提供相应的分析。此外,我们根据医学分支和问题类型对TCM-ED数据集进行分区,对每个子集进行独立的测试,以进行全面分析。根据问题类型,我们设计了不同的提示模板,包括任务描述、推理链(CoT)和问答约束。任务描述明确了LLM需要回答的问题类型。CoT指导LLM同时给出选项并提供相应的分析,这可以全面评估LLM理解和表达TCM知识的能力。提示模板的具体内容在附录文件的B部分中有详细展示。特别是,由于A3和B1类型问题之间共享内容,几个问题之间存在强烈的逻辑连贯性。为了评估LLM在TCM中的逻辑推理能力,我们采用多轮对话格式,使用先前问题的答案作为后续对话的历史上下文。此外,我们观察到A3类型的问题与现实世界的临床诊断和治疗过程极为相似,但要求LLM以固定格式回答这些问题则存在相当大的困难。因此,在这些问题中,我们引入了少量样本,在问题开头引入一个A3类型的答案示例作为回答格式的提示。

4.3 评估指标

我们使用TCMBench来评估通用和医学LLM,遵循图3右侧所示的评估过程,包括两个关键步骤。首先,我们使用准确率作为评估指标,自动比较LLM生成的选项与正确选项,评估它们理解和应用TCM知识的能力。其次,我们从TCM-ED中选择1,300个具有标准分析的问题,自动评估LLM在表达TCM知识方面的质量。我们使用传统的文本生成任务指标,包括基于字面匹配的方法如ROUGE[8]和SARI[16],以及深度学习方法如BertScore[21]和BartScore[17],来比较LLM生成的分析和标准分析之间的语义相似度。此外,我们引入了专家级补充指标TCMScore,它反映了TCM语义和知识的一致性。这两个评估过程相互补充,为评估LLM在TCM领域的医疗性能提供更全面的视角。

现在,我们来介绍TCMScore。首先,我们对NLI模型DeBERTav3-base-mnli进行微调,以创建用于推断两个句子之间TCM语义一致性的TCM-Deberta。为了进一步说明其有效性,我们评估了不同NLI模型在TMNLI测试集上的推理准确性。此外,我们还评估了TCM-ED中标准分析和QWA之间关系预测的模型准确性,其数据与TMNLI不同。在这其中,我们采用了一种更稳定的方法,其中集合分析和QWA都是前提和假设。当两个推理结果是蕴含关系时,我们认为它们之间存在稳定的语义一致性。表3中展示的推理结果表明,TCM-Deberta在两个测试数据集上实现了稳定且高的准确率。

此外,为了评估文本之间的TCM知识一致性,我们设计了一个指标,术语F1得分(F1∗),它定量地测量了两个文本之间TCM术语的匹配分数。F1∗的核心思想是全面考虑TCM术语的冗余(即精确度)、匹配程度(即召回率)和术语多样性。F1∗的计算方式如下。

在专家的指导下,我们从中医诊断和治疗、中医疾病和证候代码以及TCM-KB[14]的官方出版物中标准化了61,987个TCM术语,创建了TCM术语数据库D。D中的每个术语及其在句子S中的数量由Counter(S) ∩ Counter(D)表示,两个集合之间的TCM术语匹配数量由M(, ) = ∩ 表示。

最后,我们将F1∗和TCM-Deberta模型结合起来构建TCMScore。其本质在于当LLM生成的句子中的TCM术语与标准分析匹配众多时,更加关注LLM生成的句子的语义一致性。相反,如果术语匹配度低,即使句子的语义与分析相似,也相对不太重要。由于评估的文本较长,我们采用逐句分析方法。我们计算每个标准分析句子与LLM生成的句子之间的F1∗分数,以衡量知识匹配程度。然后,将这个分数规范化为评估LLM生成的响应中句子语义一致性的重要性权重。接下来,我们使用TCM-Deberta计算每对句子之间的语义一致性分数,然后乘以权重以获得加权的语义一致性分数。最后,我们总结每个句子的分数,以确定LLM生成的分析与标准分析之间的差异,从而得出整体的TCM语义和知识一致性分数。此外,我们还引入了一个长度惩罚项wlength,以平衡文本长度差异的影响。它对短文本的惩罚比对长文本的惩罚更严重。计算过程概述在算法1中。

表4:TCMBench中三种问题类型LLM的准确率。表现最佳的模型加粗显示,最强的模型下划线。

4.4 主要结果
LLM的准确性分析

LLM的准确性分析。从表4中,我们全面分析了TCMLE中不同LLM的准确性。主要发现如下:

(1) 所有测试的LLM都没有通过TCMLE。

(1) 所有测试的LLM都没有通过TCMLE。值得注意的是,随着模型参数的增加,准确性也在提高。尽管有些模型在广泛的中文或医学语料上进行了训练,但GPT-4仍然始终优于其他LLM。即便如此,GPT-4的总准确率也没有超过60%,这是通过TCMLE的最低要求。这也表明LLM在TCM领域的医疗性能还有很大的提升空间。

(2) 在LLM的预训练阶段,融入特定领域的知识变得更为重要。

尽管拥有超过1000亿个参数,ChatGPT的整体准确率仍低于ChatGLM。这是由于ChatGLM在预训练阶段使用了更广泛的中文语料,从而增强了其理解基于中文的TCM问题的能力。然而,两种模型之间的整体准确率略有差异,凸显了通用中文与TCM语义之间的差距。在70亿参数级别的LLM中,在预训练阶段融入医学专业知识,尤其是TCM,可以显著提高模型性能。例如,ZhongJing-TCM在A1/A2类型的问题上达到了35.37%的准确率,尽管参数数量相差25倍,但仅比ChatGPT低2%。这个比较强烈地表明,仅仅增加参数数量并不是处理TCM这样的特定领域(具有深厚的文化背景和专业术语)的最佳方法。相反,在预训练阶段精心设计和整合高质量的TCM专业数据是提高LLM在TCM应用中性能的有效方式。

(3) 在提示中添加示例可以增强LLM处理复杂逻辑推理的能力。

(3) 在提示中添加示例可以增强LLM处理复杂逻辑推理的能力。我们可以观察到ChatGLM、ChatGPT和Chinese LlaMa在零样本情况下的表现不令人满意,如表4所示。然而,一旦引入示例,这些模型的性能显著提高,ChatGLM的性能提高了34.23%。这表明设计吸引人的TCM示例可以增强LLM对TCM领域复杂推理逻辑的理解。

(4) 在提示中添加示例来指导LLM通过复杂逻辑推理可能并不总是有效的。

(4) 在提示中添加示例来指导LLM通过复杂逻辑推理可能并不总是有效的。在LLM的微调过程中融入领域知识可能会损害模型的原始逻辑推理能力。例如,当HuaTuo和Zhongjing-TCM通过示例进行少量样本学习时,它们的性能下降。可能的原因是添加示例会创建一个更长的提示,超出了LLM处理长文本的能力。因此,在未来的工作中,虽然要增强LLM的领域适应性,但更重要的是保持和优化它们处理复杂和长文本逻辑任务的能力。

(5) LLM在各个医学分支的表现各不相同。

(5) LLM在各个医学分支的表现各不相同。我们进一步评估它们在处理不同医学领域问题时的准确性。首先,根据TCMLE考试的范围,我们将TCMBench中的医学分支分为三类:中医药基础、中医药临床医学以及西医和临床医学。每个类别中不同模型的准确性在图7中展示,每个类别包含五个医学分支,对应于图6中的一行子图。图6详细展示了模型在每个问题类型上的准确性。如果LLM在模拟临床场景的A3问题上表现良好,它们更适合复杂的临床案例分析任务。此外,通过多轮对话的高A3和B1问题准确率表明它们有效理解和关联各种医学知识点。值得注意的是,GPT-4和ChatGPT在西医方面表现良好。相反,ChatGLM在中医药基础方面表现出色,特别是在关联和分析中医药经典著作的知识方面。这凸显了理解理论中医药知识中中文语料的重要性,但临床协助需要更多专业知识。尽管ZhongJing-TCM是基于TCM妇科医疗记录生成的语料进行训练的,但它在这所有分支上表现良好,在五个分支的A1/A2问题(如传统中药学)上超越了ChatGPT。它还在四个西医分支的A1/A2问题上超越了ChatGLM。这表明模型在跨领域知识转移和全面应用方面的表现。

图5:TCMLE类别上的总准确率结果。

表5:在各种提示下,GPT-4和HuaTuo回答A1/A2问题的比较评估。

图6:TCMBench不同分支的准确性结果。

(6) 推理链提示和模型稳定性。

(6) 推理链提示和模型稳定性。在TCMBench中,我们为评估设置了基于CoT的提示。此外,我们还比较了不使用CoT提示的LLM,结果见表5。移除CoT后,LLM的整体表现下降,确认了CoT提示在增强模型对TCM知识理解中的重要性。为了评估不使用CoT的LLM的稳定性,我们对LLM回答每个问题5次,并计算平均分。结果显示,LLM在这种场景下仍能保持高度的稳定性。

表6:TCMBench上LLM响应的表达质量。表现最佳的模型加粗显示,最强的模型下划线。

LLM的表达质量分析

LLM的表达质量分析。我们利用三种类型的评估指标:(a)基于字面匹配的方法,如Rouge-1、Rouge-L和SARI,(b)基于深度学习的方法,如BertScore和BartScore,以及©混合专业术语匹配和深度学习的方法,即TCMScore,全面评估LLM的表达质量。从表6中,我们发现GPT-4持续展现出卓越的表现,而ZhongJing-TCM表现最差。进一步的发现如下:

(1) 基于字面匹配的指标受到生成文本长度的限制。Rouge偏好与标准分析长度差异最小的LLM。分析Rouge分数和生成的文本长度,如图8所示,ChatGPT和ChatGLM由于生成的文本长度与标准分析更接近,因此具有优势。此外,Rouge专注于召回率指标,意味着如果LLM生成的文本更短,它可能得分更高。这解释了为什么ZhongJing-TCM,尽管生成内容较少但保持较高的准确性,在Rouge分数上超过了HuaTuo,而HuaTuo超过了Chinese LlaMa。从图7中0-2到2-10的长度范围统计来看,HuaTuo和ShenNong-TCM在生成分析方面存在困难,强调了在再次微调领域知识时保持基本分析和推理能力的重要性。我们计算SARI分数,因为不包含额外的参考文本。它考虑词频来评估生成文本的信息内容。例如,GPT-4在这个指标上表现出色。然而,生成长文本的LLM,如Chinese LlaMa,尽管可能存在错误,但由于包含更多信息,仍可以获得更高的SARI分数。上述分析确认,仅依靠字面匹配来评估TCM文本生成质量会导致因文本长度而产生的偏见。

(2) 基于深度学习的指标,如BertScore和BartScore,可以评估生成文本的语义相似性,但不直接评估或解释文本中专业知识的精确度。GPT-4在其生成的文本和标准分析之间取得了良好的平衡。ChatGLM在BertScore上超过了ChatGPT,表明它更擅长产生简洁而集中的响应。从图8生成的文本长度分析进一步支持这一点。此外,Chinese LlaMa在两个指标上都超过了HuaTuo和ZhongJing-TCM,表明它在生成多样化和复杂语义内容方面具有优势。它产生的文本通常更长,提供更详细的分析和扩展。然而,重要的是要注意,生成的文本长度和语义连贯性并不保证内容的绝对正确性。总的来说,评估知识密集型领域如TCM的文本需要评估的不仅仅是语言流畅度和语义一致性,还需要与专业知识准确度和领域适应性相关的具体指标。这确保了对文本的全面质量评估。

(3) 进一步地,使用TCMScore的发现将得到补充。TCMScore作为一个全面的补充评估指标,考虑了TCM中的语义和知识一致性,以及生成的文本长度。随着TCMScore的引入,我们可以得出以下结论来补充上述发现:

(a) GPT-4可以生成具有丰富TCM特征的高精度内容,并扩展知识边界。它在TCMScore上的显著优势凸显了它的优势。尽管在Rouge上可能得分较低,但这凸显了GPT-4在提供深入扩展和精炼的同时确保与标准分析语义一致性的优势。它提供了更全面和详细的TCM相关分析。

(b) LLM生成文本中的错误事实会减少它们在语义相似性方面的优势。ChatGPT和Chinese LlaMa可以扩展TCM知识,但它们生成的内容的准确性仍需提高。尽管ChatGPT在整合TCMScore后,在大多数指标上超过了ChatGLM,但它的优势因生成的内容中的冗余和错误而减弱。Chinese LlaMa面临类似的问题,尽管在BartScore和BertScore上表现出色,但TCMScore上的优势因生成的内容中的冗余和错误而减少。这表明生成的内容中可能存在错误信息,从而降低其在语义方面的优势。总的来说,这些LLM有提升生成内容准确性和减少错误信息的空间。

© 文本内容的正确性并不等同于TCM知识的有效应用。例如,尽管ZhongJing-TCM可能提供准确的答案,但它缺乏诸如语言流畅性、知识连贯性和逻辑推理等关键技能,导致在TCMScore上的表现不佳。因此,为了推动LLM在TCM领域的发展,提高它们应用知识的能力至关重要,同时确保对特定概念有深入的理解。

4.5 人工评估

除了自动评估,我们还邀请了一位中医专家和一名医学博士生对18个与中医药基础和临床知识相关的问题进行了手动评估,以定量化评估LLM的表现。评估维度包括准确性、专业性、临床推理逻辑、客观性和全面性,如图8所示。为了公平,评估过程中LLM的名称被匿名化。结果显示,GPT-4在所有评估维度上都表现出色。ChatGPT在准确性和临床推理逻辑方面略低于GPT-4。值得注意的是,尽管Chinese LlaMa的准确性较低,但在客观性和临床推理逻辑方面与ChatGLM持平,这反映了它能够保留其基本模型的能力。ZhongJing-TCM在准确性维度上对中医药知识有深刻的理解。然而,它在其他维度上的得分较低,因为在提供具体分析方面存在挑战(类似于HuaTuo)。

图7:LLM生成文本长度信息统计。

图8:人工评估结果。

5 结论

在本论文中,我们介绍了TCMBench,这是一个用于评估LLM在中医药领域表现的全面基准。实验结果显示,LLM在这个领域的表现并不令人满意。这还凸显了在LLM的微调过程中保持其基本能力的同时,引入领域专业知识的重要性。我们还分析了特定领域的指标,如我们的TCMScore,这些指标可以进一步补充和解释传统文本生成指标的评估结果。

此外,实验还揭示了一些LLM在生成内容时会产生错误信息(即幻觉现象)。这将是我们在未来深入研究的一个重点,旨在开发有效的方法来识别和量化此类问题。考虑到临床实践在中医药中的核心作用,我们计划扩大数据来源,包括实际TCM病例数据,涵盖整个TCM诊断和治疗过程。值得注意的是,我们将集中精力准确评估LLM是否能够遵循TCM独特的临床逻辑,即辨证施治,从而提高和完善我们的基准。

A TCM-ED的问题类型

图9:A1/A2类型问题的示例。问题要求用深蓝色文本表示,包括五个选项的问题用浅蓝色文本表示,标准答案用绿色文本表示,标准分析用橙色文本表示。相关的TCM术语在黄色高亮中解释。

图10:A3类型问题的示例。问题要求用深蓝色文本表示,以患者为中心的病例用浅蓝色文本表示,第一个子问题及其五个选项、标准答案和分析用绿色文本表示,第二个子问题用橙色文本表示,第三个子问题用紫色文本表示。

图11:B1类型问题的示例。问题要求用深蓝色文本表示,五个选项用浅蓝色文本表示,第一个子问题及其五个选项、标准答案和分析用绿色文本表示,第二个子问题用橙色文本表示。

B 评估的提示和目标输出格式

图12:评估A1/A2类型问题的零样本提示模板目标输出格式。

图13:评估A3类型问题的零样本提示模板目标输出格式。

图14:评估A3类型问题的少量样本提示模板目标输出格式。

图15:评估B1类型问题的零样本提示模板目标输出格式。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值