使用结构化医学知识库对大型语言模型进行知识调优,以在中文环境下生成可靠的响应

链接:https://arxiv.org/abs/2309.04175

原标题:Knowledge-tuning Large Language Models with Structured Medical Knowledge Bases for Reliable Response Generation in Chinese

日期:Submitted on 8 Sep 2023

摘要

大型语言模型(LLMs)在通用领域的自然语言处理(NLP)任务中展示出了显著的成功。然而,由于领域知识有限,LLMs有时会生成关于医学事实的幻觉性回应。这样的不足在医学环境中利用LLMs可能存在潜在风险。为了解决这一挑战,我们提出了知识调整(knowledge tuning),利用结构化的医学知识库,使LLMs能够高效地掌握领域知识并实现可靠的回应生成。我们还发布了cMed.KnowQA,一个从医学知识库构建的中文医学知识问答数据集,用于评估LLMs的医学知识水平。实验结果表明,通过cMed.KnowQA进行知识调整的LLMs在回应生成中可以展现出比普通指令调整更高水平的准确性,并为LLMs的领域适应提供了一种新的可靠方式。

引言

大型语言模型(LLMs)的出现,以ChatGPT(OpenAI 2022)为代表,引起了极大的关注,因为它们在理解指令和生成类似人类回应方面表现出了非凡的性能。与较小的模型相比,LLMs在各种自然语言处理(NLP)任务中表现出了强大的泛化能力,并具有解决未见或复杂任务的独特的自发能力。尽管ChatGPT的开源状态不明,但开源社区已提供了几种替代方案,如LLaMa(Touvron等,2023),其训练成本相对较低。

然而,适应大型语言模型(LLMs)到医学领域存在一个主要挑战,即由于LLMs并非专为医学领域设计,因此容易产生关于医学知识的妄想。它们的通用领域知识在处理这些专业领域时常常不足,需要准确而领域特定的专业知识,这导致模型响应中出现妄想(Ji等,2023),尤其是对于在英语以外的语言进行较少训练的情况。图1显示了ChatGPT(OpenAI,2022)对英文和中文相同问题的生成响应。当用英语回答问题时,ChatGPT为“肝胆结石”提供了合理的药物建议。然而,对于相同的中文问题,ChatGPT却建议使用“利福平”,这是一种用于治疗分枝杆菌感染的抗生素药物,对肝胆结石无效。大型语言模型生成的这种妄想性响应可能导致次优的药物建议和医疗建议,可能危及患者安全。

图1:ChatGPT在相同问题的英文和中文提问中的响应案例。ChatGPT对中文问题的回答中提供了错误的药物推荐。生成于2023年4月13日。

有限的尝试已经开始解决这个挑战,当前的方法主要集中在为LLMs提供从真实或合成对话中获取的医学数据(Li等人,2023; Xiong等人,2023),然而人类错误的可能性相对较高。对于LLMs来说,仅依靠监督微调方法来理解这样的知识并生成与知识一致且没有幻觉的回复是一个不容易的任务。最近的研究尝试通过将LLMs模型与针对特定领域的外部API集成来缓解这些问题(Shen等人,2023; Thoppilan等人,2022)。然而,尽管存在各种医学知识库,如UMLS(McCray和Nelson,1995)和医学知识图谱(Odmaa等人,2019; Li等人,2020),但迄今为止还没有有效的结构化医学知识API可以被LLMs利用。

在这项研究中,我们引入了知识调整(knowledge-tuning)的方法,在LLMs(大型语言模型)的训练和推理阶段中明确地融入了中医知识库。知识调整首先通过Chat-GPT API基于结构化知识库生成医学知识问答对,并训练LLMs生成关键词和可能的属性作为每个输入的查询参数。这些查询参数随后用于检索相关的医学知识。因此,LLMs可以通过参考检索到的医学知识为输入生成响应。因此,LLMs不仅生成响应,还提供了它们所依赖的知识来源的信息,从而提高了生成响应的质量和可靠性。我们的贡献可以总结如下:

  • 我们引入了知识调优,这是一种旨在有效地将结构化医学领域知识充分利用到大型语言模型(LLMs)生成的响应中的方法,不仅减轻了响应中的妄想,还提供了知识源,这对于医学领域的应用尤其关键。

  • 我们研发了一种构建医学知识问答数据集的方法,利用知识库创建了第一个中文医学知识问答数据集,即cMedKnowQA

  • 我们提出了一个综合评估指标,从检索知识的准确性、生成响应的帮助性和无害性等方面来衡量知识调优的性能,以评估传统评估方法不足的地方。实验结果表明,与基准线相比,知识调优显示出显著优势,并在少样本和泛化场景中保持有效。

相关工作

大型语言模型

大型语言模型规模的显著增加,引发了其质量的大幅改进,导致了ChatGPT(OpenAI 2022)和GPT-4的发展。这些进展通过以生成方式处理NLP任务,彻底改变了人们对LLMs的认识。尽管这些模型展示了令人印象深刻的性能,但OpenAI并未公开披露有关其训练方法或权重参数的具体细节。因此,一些可访问的LLMs,包括LLaMA(Touvron等,2023)、Pythia(Biderman等,2023)和Bloom Scao等(2022),已成为研究目的的可行替代品。为了提高性能,这些模型采用了一些技术,如指导微调(Wang等,2022b;Taori等,2023;Sanh等,2022;Chung等,2022;Wei等,2022)和强化学习与人类反馈(Ouyang等,2022;Bai等,2022),旨在对齐模型的输出与预期的结果。该模型的输出与人类期望一致。然而,需要注意的是,指令数据主要来自于大型语言模型的迭代生成,只依赖于少量的指令种子,这可能引入与知识相关的噪音信息。

生物医学领域中的大型语言模型

尽管大型语言模型(LLMs)在一般领域中表现出卓越的性能,但它们缺乏领域特定的知识,导致在需要专业专长的领域(如生物医学)中表现出次优的性能。已经进行了多项努力将LLMs应用于生物医学领域。已经进行了多次实验,用生物医学领域的语料库对模型进行预训练(Peng, Yan, and Lu 2019: Lee et al.2020:Huang,Altosaar.and Ranganath 2019:Luo et al. 2022),学习领域特定的词汇以获得更好的表示(Lewis et al. 2020; Gu et al. 2021),或者为LLMs提供医学知识(Zhang et al. 2021: Michalopoulos et al. 2021; Wang et al. 2022a)。至于更大型的语言模型,基础模型已经通过合成的生物医学对话或真实的临床对话进行了指导调优(Li et al. 2023; Xiong et al. 2023; Zhang et al. 2023)。这些工作展示了LLMs在生物医学领域成功应用的潜力,但生成的回应的正确性仅依赖于LLMs内部嵌入的知识。

大型语言模型的工具

由于大型语言模型(LLMs)在数学和医学等特定领域的能力受限(Thoppilan等,2022),因此各种研究致力于为LLMs配备外部工具。这种方法使得精确计算或信息检索等任务可以委托给外部模块,例如计算器或搜索引擎(Mialon等,2023;Thoppilan等,2022)。此外,集成外部资源还可以实现自然语言知识的检索,如WebGPT(Nakano等,2021)和ReAct(Yao等,2022)的示例所示。在解决多样化的自然语言处理任务时,研究人员借助搜索APIs进行组合多源APls、模型插件和其他工具(Schick等,2023;Paranjape等,2023;Shen等,2023)。对于生物医学LLMs,响应可靠性问题具有重要意义,在本研究中,我们研究了医学知识在促进LLMs可靠响应生成中的作用。

方法论

在这里,我们首先介绍了我们在这项研究中使用的结构化医学知识。随后,我们将结构化知识转化为适用于LLMs的训练数据。最后,我们进行知识微调,引导LLMs根据输入查询检索相关的医学知识,并在训练和推理阶段基于相应的知识生成响应,以统一的范式与LLMs一起工作,如图2所示。

图2:基于知识的响应生成过程。阶段1:根据查询问题填写知识检索的参数。第二阶段:获取具有填充参数的知识。阶段3:用已获得的知识生成响应。中文文本已被翻译成英文。

结构化医学知识库

医学知识通常包括结构化的医学知识,如医学知识图谱或知识库,以及非结构化的医学知识,如医学指南和文献。在这项研究中,我们专注于利用结构化的中文医学知识库。给定一个医学知识库,每个医学知识库中的知识实例包括医学实体 的关键词、实体的属性和知识内容。关键词包括“疾病”、“药物”、“症状”,属性包含“病因”、“并发症”、“剂量”等。

知识引导的数据生成

指导调优已被证明是提高大型语言模型性能的一种强大技术(Wei等,2022;Ouyang等,2022)。最近,一些研究者(Wang等,2022b;Taori等,2023)提出了一种替代方法,通过利用语言模型(如GPT-3(Brown等,2020)和ChatGPT(OpenAI,2022)),在上下文学习风格中借助少量种子指导生成指令。然后,模型生成相应的输入查询和输出响应对,并以提供的指令为指导,该指令作为语言模型的训练数据。

然而,在生物医学领域,LLMs生成的输出并不总是可靠的,如图1所示,而且直接利用结构化医学知识库可能会很困难。因此,我们不采用使用指导生成训练实例的方法,而是使用结构化医学知识作为LLMs创建知识调优数据的指导。给定医学知识库K中的一条知识,我们期望ChatGPT API使用精心设计的提示生成一对模型查询和响应,反映所提供的医学知识。在医学领域内,模型的输入通常以问题的形式存在,而期望的模型输出通常包括相应的答案。因此,我们将“指导”概念固定为一个提示模板,并仅在我们的数据集中保留输入和输出组件,如图3所示。

图3:为知识调整生成的一个医疗知识引导实例。中文文本已经被翻译成英文。

通过这种方式,构建的数据集D中的每个实例都是一个元组。尽管使用知识引导生成的数据质量超过了没有引导的情况,但噪声数据的存在仍然是一个问题。因此,构建的数据集首先由ChatGPT本身进行初步评估,然后由医学领域的专家进行进一步检查。

知识调整

给定一个基于知识的数据集D,其中每个实例都是一个元组,包括一个医学实体、实体属性、相应的知识内容以及与知识相关的查询响应对,知识调优表示训练一个基础模型,通过生成医学实体和属性来检索输入查询的相关知识,并生成引用检索到的知识的相应。

首先,基于输入查询q和实体提示,预测医学实体,表示为

随后,使用输入查询q、预测的医学实体和属性提示,通过M生成属性,表示为

在此之后,使用参数对从知识库中检索相应的知识内容c。最后,LLMs根据输入查询q、检索到的医学知识c以及包含知识的响应提示生成响应r,如下所示:

知识调优的损失函数包括三个组成部分,分别是预测的损失,表示为

推断过程采用上述相同的过程,具体描述在附录A中的算法1中。在推断过程中,LLMs可能会面临由于实体或属性的错误预测而难以检索相关医学知识的挑战。为解决这个问题,我们得到了一个数据集D∗,其中每个实例包含(q, r),LLMs被训练仅通过输入查询进行响应,类似于指导调优,表示为

的训练损失一起。因此,总体损失函数L是的组合,表达为

实验

基准和实现方法

知识微调作为一种与模型无关的方法,利用两个基础模型进行评估,即Bloom模型(Scao等人,2022年)和LLaMA模型(Touvron等人,2023年)。对于我们的实验,我们特别选择了基于LLaMA的Alpaca中文模型(Cui,Yang和Yao,2023年),该模型涉及扩展词汇列表和使用中文数据集进行指令微调,并将Bloom模型与中文指令微调数据集进行对齐。选择约70亿参数的基础模型,以在性能和计算资源之间取得平衡。

为了知识检索性能,知识调优与两个基准进行对比:(1)BM25,一种基于统计的方法(Robertson,Zaragoza等,2009)和2 Dense retrieval(Zhao等,2022),其中知识实例和输入查询被向量化,检索基于最大余弦相似度。由于可能存在查询-实体不匹配的情况,传统的命名实体识别技术是不可行的。

为了突出知识调优的响应生成性能,我们与以下基线进行了比较:(1)普通的Bloom和Alpaca模型;(2)在这两个模型上使用D*数据集进行指令调优;以及(3)Chat.GPT(OpenAI 2022),这是一个已经建立起来的OpenAI产品。模型使用LoRA进行优化(Hu等人,2021)。有关具体实施细节,请参见附录B。

数据集

我们从两个来源获得了结构化的中文医学知识:1)CMeKG,一个包含有关疾病、药物、症状等详细信息的中文医学知识库(Odmaa等,2019),以及(2)来自丁香医生的中文医学指南。表1展示了来自CMeKG和丁香医生指南的案例。使用ChatGPT API和这些知识库,我们构建了一个中文医学知识问答数据集cMedKnowQA。通过知识指导筛选的数据优于通过指令指导的数据,尽管存在噪声。为了提高数据质量,我们聘请了医学专家对不准确之处进行严格检查和纠正。因此,cMedKnowQA包含了7,449个条目,每个条目都包含一个问题、答案和相关的医学知识,并按7:1:2的比例划分为训练集、验证集和测试集。

表1:CMeKG和丁香医生中的知识案例

指标

在一般领域中,生成模型的评估常常使用Bleu和Rouge等指标来衡量模型输出与真实答案之间的相似度。然而,在医学问答评估中,这些指标可能不适用。特别是在生物医学领域,仅仅依靠输出与真实答案的相似度可能无法有效捕捉生成答案的质量。图1说明了这个限制,在这个例子中,模型错误地建议了一个显著错误的答案,但是Bleu等指标仍然产生了高分,突显了以相似度为中心的评估在生物医学领域的局限性(Chang等,2023年)。因此,我们从三个不同的角度对知识调优的有效性进行了严格的检验。(1)我们引入了医学实体和知识的数值度量标准,因为响应的准确性通常可以反映实体和知识的参考程度。(2)医学专家评估模型的输出,提供比自动度量标准更为细致的评估。(3)ChatGPT作为一种辅助评估标准。为了确保对响应质量进行全面评估,我们提倡应用H Helpfulness和Harmlessness评分。Helpfulness反映了模型响应中展现的医学专业水平。医学专家负责根据使用的相关医学知识来评估响应的有用程度,而不是依靠自己的医学技能。这种方法可以更准确地表示LLMs如何利用检索到的知识。同时,Harmlessness旨在识别响应中可能会误导用户并使其陷入危险境地的任何内容,例如错误的药物推荐。在附录C中可以找到医学专家对H2评分的各种说明。

对医学实体和知识的评估

表2说明了LLMs生成的可能的医疗实体和知识的准确性。基线方法直接获取医疗知识,而不需要对医疗实体进行预测。由于医疗知识库的广泛性和结构化信息的复杂性,密集检索仅能检索到所有知识的2.6%。而BM25在知识获取方面表现出优越的准确性,约为55%。值得注意的是,LLMs在医疗实体的预测方面表现出了显著的效果,记录的准确率高达86.7%。关于与预测的实体和属性相结合的知识检索,LLMs展示了高达71.4%的精确率。这个数字考虑了在区分特定候选属性时偶尔存在的歧义。

表2:生成的医疗实体和检索到的知识的准确性。denotes表示理论值。

对回应质量的评估
医学专家评估

医学专家评估所提出的指标H2,用于定量评估由医学专业人员确定的“帮助性”和“无害性”两个维度,每个维度在1到3之间刻度。关于“帮助性”方面,对于具有检索到的医学知识的响应,“3”的评分表示对相关医学知识的全面覆盖;“2”的评分表示响应虽然省略了关键信息,但仍然有效;而“1”的评分表示完全没有帮助。对于不包含检索到的知识的响应,它们在“3”和“1”之间评分,分别表示相对于所包含的医学知识的有效性、适当性和不可接受性。至于“无害性”方面,评分“3”表示响应中没有有害内容;“2”表示存在错误但不具有害信息;而“1”强调了包含有害信息。在“无害性”的评分原则方面,与上述相似。

两名医学专业人士被委托对测试数据集中随机选择的200个查询的模型生成回答进行评估。利用Cohen的Kappa系数(Cohen 1960),观察到了0.81的评价者间一致性。评估结果表明,虽然指令调整(instruction-tuning)是一种将LLMs适应医学领域的可行方法(Wang等,2023; Zhang等,2023),但在面对需要深入知识的复杂医学查询时,其效果有所减弱。在这种情况下,指令调整和原始模型都在帮助性和无害性领域表现不佳。相反,知识调整增加了生成回答的可信度。进一步的探索表明,当知识调整与准确的知识检索相结合时,能够提供与ChatGPT相当的优秀结果。在接下来的部分进行了细致入微的案例研究。

ChatGPT 评估

ChatGPT评估 我们还将ChatGPT纳入评估中,评估使用了与人类评估相同的子集,并指示ChatGPT将响应分为三个不同的分类:“好”,“中等”和“差”,分别用32和1表示。至于Bloom模型,表3显示ChatGPT将经过指导调优的模型生成的响应排名最低,平均得分为2.61。另一方面,基础模型表现出略微优越的结果,得分为2.47,而知识调优模型则达到了最高得分2.74。这些结果表明,使用知识问答数据集对模型进行调优,特别是在实例数量有限的情况下,可能会对其在测试阶段面对不熟悉知识的效果产生不利影响。值得注意的是,仅仅分析能够准确检索知识的知识调优响应时,ChatGPT的评估提升至2.79。

表3:模型回应的评估。H得分是两个评分者的平均值,Cohen’s kappa为0.81。“h”表示有帮助,“h2”表示无害。“i-tuning”表示指令调整,“k-tuning”表示知识调整。“+”表示具有正确的医学知识的知识调整。

讨论

案例研究

表4提供了一个使用不同调参方法的Bloom模型的案例研究。给定有关瘢痕性幽门梗阻的医学知识,ChatGPT被编程用于构建由此知识派生出的问答对。然而,观察到ChatGPT生成的回答偶尔会偏离完全准确,因为模型倾向于在提供的医学知识之外加入额外的信息。具体而言,对腹部膨胀和体重减轻的提及是准确的,但超出了提供的知识范围,可能在回答生成中存在潜在的问题。此外,原始的Bloom模型会产生错误的症状,比如"黑便"和黄疸。与此同时,通过指导调参的Bloom模型倾向于列举与消化系统相关的症状,这些症状在给定的数据中并没有明确描述。相反,通过知识调参的Bloom模型则可以更好地保持回答的准确性。尝试将医学知识转化为自然语言,并加入必要的修饰词,同时仍然大部分遵循原始的知识。

表4:布卢姆模型响应的案例研究。中文文本已被翻译成英文。黄金响应是在医学知识的指导下由ChatGPT生成的。斜体表示内容包含提供的医学知识之外的信息。粗斜体表示错误信息。

小样本情景下的知识微调

由于知识调整的有效性与医学实体和属性的生成密切相关,我们研究了布鲁姆模型在医学实体生成的少样本情境中的实用性,使用了从训练集和验证集中提取的100到800个实例的数据子集。除了准确度指标外,我们在这里提出了BLEU-1分数作为衡量实体生成质量的参考指标。图4展示了布鲁姆模型在100个实例下的表现不佳。然而,在200个实例下,其准确度显著提高至80.7%。当使用完整数据集进行进一步优化时,准确度提升至86.7%。这凸显了知识调整在应对少样本场景中的潜力,特别是当数据集可能不足以代表新兴或罕见疾病时。

图4:少样本场景下的实体生成

使用未见过的实体进行泛化

由于cMedKnowQA数据集包含与多个属性相关的医疗实体,我们进行了实验,其中只有测试集中呈现的部分医疗实体在训练过程中被看到,以评估模型对未见过实体的泛化能力。为了实现这一点,我们将整个数据集用作测试集。根据医学实体进行设置和组织。随后,我们通过从0.05%到60%的不同医学实体中进行采样来创建训练集。测试集在整个过程中保持不变。如图5所示的结果表明,当在极其有限的数据上进行训练时,Bloom模型的性能不足。然而,当使用不少于0.05%的不同实体进行训练时,它表现出了强大的泛化能力。这表明,经过知识调整的模型可以在不需要进一步调整的情况下促进对新医学实体的知识传输。

图5:使用未见实体的模型泛化性能。X轴表示训练集中已见实体的分区。

结论

在本文中,我们解决了语言模型生成的医学领域响应中医学事实准确性的问题,这对于在医学领域的应用尤为关键,特别是在中文环境下。我们提出了一种名为知识调优的新方法,它利用医学知识函数作为插件助手,使语言模型能够高效地掌握领域知识并增强响应生成的可靠性。通过在我们提出的中文医学知识问答数据集cMedKnowQA上进行实验证明,我们的知识调优模型在生成响应时具有更高的准确性和可靠性,并且在较少的训练数据和未见实体的情况下也表现出一致性,从而启示了语言模型的领域适应能力。

A. 知识调整算法

B. 实施方案

至于应用于Alpaca和Bloom模型的知识调整和指令调整,我们采用LoRA实现参数效率调整。对于主要实验,超参数的配置如表5所示。所有实验均使用NVIDIA A100-80GB-PCIE进行。本研究涉及的提示模板如下(中文文本已翻译为英文):(1) 用于ChatGPT API生成基于知识的问答对的提示:请结合上述医学知识提出一个问题,并参考该知识回答。(2) 用于实体生成的提示Pe:这个问题中提到了哪种医学实体,比如疾病或药物?(3) 用于实体生成的提示Pattr:这个问题中提到了哪种医学实体的属性?(4) 用于知识引导的回答生成的提示P:用上述医学知识回答这个问题。(5) 用于回答生成的提示Pr:用上述医学知识回答这个问题。

表5:主要实验中的超参数

C. 医学专家H2评分案例

我们在表6中展示了医学专家们的几个H2得分案例。

D. 限制

知识调优使得大型语言模型(LLMs)能够在给定问题的背景下利用相关的医学知识来生成回答。尽管具有这种有益的特性,LLMs仍然可能存在潜在的缺点,例如在知识函数的参数预测方面出现错误,或者在有效地整合医学知识到生成的回答中存在不准确性。

E.伦理声明

知识调整主要用于研究,不旨在提供医疗建议。本研究所使用的医学信息来自开放获取的医学知识库。需要注意的是,大型语言模型生成的回答准确性不能得到保证,其中使用的医学知识不应被视为专业医疗建议的替代。如果遇到任何不适或困扰,请强烈建议寻求合格医疗专业人士的指导。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值