OpenAI o1模型的医学初步研究:我们离人工智能医生更近了吗?

我们最近中标了两个大模型和医学相关国自然面上项目,发布了基于大模型和知识图谱的智能医学图书馆以及医学指南智能助手,医学智能AI Agent并在多家医院以及药企上线。
医学和大模型的结合是一个很有前景也很有挑战的研究方向
本文概览:

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor ?

该研究对OpenAI最新的语言模型o1在医学领域的性能进行了初步评估,发现o1在理解、推理和多语言能力方面均优于之前的GPT-4模型,但在幻觉和复杂多语言任务方面仍存在不足,并呼吁改进医学NLP的评估指标。

主要观点:

* o1模型在医学知识理解和推理方面显著优于GPT-4和GPT-3.5,尤其是在新构建的复杂问答任务中。

* o1模型在理解和推理方面表现出色,在某些任务中超过了GPT-4,更接近于现实世界临床应用。

* o1模型仍然存在幻觉问题,并且在复杂的多语言医学案例中表现不佳。

* 现有的医学NLP评估指标存在不一致性,需要重新评估可靠的指标。

* 虽然o1在大多数医学任务中表现出色,但没有一个模型能胜任所有任务。

* CoT提示可以进一步增强o1在医学领域的性能,但其他高级提示方法效果不佳。

* o1模型的解码时间成本显著高于GPT-4和GPT-3.5。

Source:

https://arxiv.org/html/2409.15277v1

正文摘要

大型语言模型 (LLM) 在各个领域和任务中都表现出卓越的能力,突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用强化学习策略采用内化思维链技术的 LLM。虽然它在各种通用语言任务上表现出令人惊讶的强大能力,但它在医学等专业领域的表现仍然未知。

为此,本报告对 o1 在不同医疗场景下的初步探索,全面考察了 3 个关键方面:理解、推理和多语言。具体来说,我们的评估包括 6 项任务,使用来自 37 个医学数据集的数据,包括两项基于《新英格兰医学杂志》和《柳叶刀》的专业医学测验的新建且更具挑战性的问答 (QA) 任务。与 MedQA 等标准医学 QA 基准相比,这些数据集具有更高的临床相关性,可以更有效地转化为现实世界的临床效用。我们对 o1 的分析表明,LLM 增强的推理能力可能(显着)有利于他们理解各种医疗指示和在复杂临床场景中进行推理的能力。值得注意的是,在 19 个数据集和两个新创建的复杂 QA 场景中,o1 的准确率平均超过之前的 GPT-4,平均为 6.2% 和 6.6%。但与此同时,我们也发现了模型能力和现有评估方案中的几个弱点,包括幻觉、不一致的多语言能力和评估指标的差异。我们会在 https://ucsc-vlaa.github.io/o1_medicine/ 发布原始数据和模型输出,以供将来研究。

1介绍

智能是一个复杂而难以捉摸的概念,多年来一直困扰着心理学家、哲学家和计算机科学家。虽然没有单一的公认智能定义,但人们普遍认为它涵盖了广泛的认知技能,而不是局限于特定的任务。创建具有这种通用智能的人工系统一直是 AI 研究的一个长期而雄心勃勃的目标。这些年来,人工智能最令人兴奋的进步是通过大语言模型实现的,从 ChatGPT 的最初开始到它的演变和其他开源项目。

早期的大模型先驱通过探索可推广的推理机制和利用大量常识性信息构建知识库,设定了理解人类并与人类互动的目标。有了参数和数据量,如何从用户端有效提示模型,又从开发者端训练模型,成为探索的热门话题。在用户方面,不同的提示技术会显著影响模型性能。思维链 (CoT) 提示是最受欢迎的策略之一,它利用模型的内部推理模式来增强其解决复杂任务的能力。OpenAI 利用这一点,将 CoT 流程嵌入到模型训练中,集成强化学习,最终推出了 o1 模型。虽然 o1 模型在一般领域表现出强大的性能,但它在医学等专业领域(可能缺乏特定领域的训练)的有效性仍然不确定。此外,医学领域 LLM 的当前基准通常仅根据一组有限的因素来评估模型,通常侧重于孤立的方面,例如知识和推理、安全性或多语言性。这些因素对 LLM 的能力进行了全面评估,尤其是对于 o1 等高级模型,在医疗具有挑战性的任务中(图 1)。

本文旨在提供一项举措来缩小这一差距,重点关注 o1 。我们确定了医学 LLM 的三个基本方面:理解、推理和多语言。为了评估这些功能,我们收集了 35 个现有的医学数据集,并开发了两个新颖的、具有挑战性的 QA 数据集,其中包括说明和预期输出,以确保全面评估。通过对这个广泛的套件进行评估,我们的主要发现包括:

  • o1 展示了临床理解和推理能力的改进,与近源和开源模型相比,验证了其在真实诊断场景中的能力,如图 1和 图 2

  • 在我们的医疗排行榜上,没有一个模型在所有任务中都表现出色,尽管 o1 几乎在大多数评估中占据主导地位;

  • o1 仍然遭受着长期存在的幻觉和复杂的多语言医疗案例的困扰;

  • 医学 NLP 指标的不一致会显着影响模型的排名,这需要重新评估未来 LLM 的可靠指标;

  • CoT 提示可以进一步提高医学中的 o1,尽管它的训练已经整合了 CoT 数据。

除了这些发现之外,我们还将讨论部分提升为解决我们在第 .特别是,我们强调了 o1 的潜在负面影响,强调未来 LLM 迫切需要一致和统一的评估指标,并倡导改进的教学模板,这些模板可以应用于具有嵌入式提示策略的模型。

相关作品

具有增强推理能力的大型语言模型

基于下一个标记预测预训练的大型语言模型 (LLM) 已经在各种语言 undersanding 任务上表现出有前途的能力。指令微调进一步提高了这些 LLM 遵循用户指令的能力。然而,最近的研究表明,LLM 难以完成涉及逻辑推理的复杂任务。为了解决这个问题,一些研究人员建议在生成最终答案之前,通过产生思维链 (CoT) 来指示 LLM 模仿人类的思维过程。来自人类反馈的强化学习也被用于增强推理,同时确保模型与人类价值观保持一致。最近,OpenAI 引入了 o1 ,它在大量 CoT 数据上进行了训练,进一步增强了 LLM 解决科学问题的能力。在本文中,我们旨在研究 o1 的增强能力是否有效地转移到临床医学领域。

医学大型语言模型。

受益于 LLM 的泛化功能,GPT-4 等通用模型在具有挑战性的医疗问题上表现出令人印象深刻的性能。一些研究人员试图通过使用特定领域的语料库对 LLM 进行微调来进一步为 LLM 提供生物医学知识。然而,对于临床应用,LLM 不仅需要理解医学领域的特定知识,还需要通过执行逻辑推理来产生可靠的响应。在本文中,我们旨在探索 o1 作为临床可行模型的潜力。我们的实验结果表明,随着理解、推理和多语言医疗能力的增强,o1 离可靠的临床人工智能系统更近了一步。

3评估管道

3.1 评价的总体分类法

图 1:我们的评估管道具有不同的 (a) 方面,以及使用最新 (c) 语言模型的各种 (b) 提示策略。我们利用一套全面的 (d) 评估来呈现医学领域模型进展的整体视图。

表 1:我们的评估套件中采用的六个数据集,涵盖三个基本方面。星号 (*) 表示来自公共源的新构建数据集。

首先,我们介绍了评估的分类法,以及评估管道的概述,如图 所示。首先,我们指定了模型能力的三个方面,即理解、推理和多语言,它们对应于临床医生的真实需求。为了确保全面评估,我们收集了属于这三个方面的各种医疗任务和数据集。此外,我们在管道中探索了三种提示策略,包括 (1) 直接提示,指示 LLM 直接解决特定问题,(2) 思维链,要求模型在生成最终答案之前逐步思考,(3) 小样本提示,为模型提供几个示例,以动态学习输入-输出映射。最后,使用适当的指标来衡量生成的响应与真实答案之间的差异。表提供了有关每个数据集中使用的量度的详细信息。

3.2方面和任务

在表1中,我们的评估工作分为三个主要部分:方面、任务和数据集。具体来说,数据集是指数据本身以及当前上下文中使用的量度。我们利用 35 个现有数据集,并创建了 2 个额外的具有挑战性的数据集进行评估。任务是多个数据集的集合,这些数据集在模型中具有共同目标或评估类似功能。我们将所有 37 个数据集分为 6 个任务,以便更清晰地进行评估和分析。方面描述特定功能或属性,以了解模型在特定领域的表现。在我们的评估管道中,我们专注于三个关键方面。

形式上,我们将这三个评价方面及其相应的任务说明如下:

  • 理解是指模型利用其内部医学知识来理解医学概念的能力。

    例如,在概念识别任务中,模型需要从文章或诊断报告中提取或阐述医学概念。而在文本摘要中,模型需要理解复杂文本中的概念,以生成简洁的摘要。

  • 推理是进行多个逻辑思维步骤以得出结论的能力。

    在问答任务中,系统会提示模型根据从问题中提供的医疗信息得出的推理,从多项选择中选择正确的选项。

    除了常见的问答数据集外,我们还从《柳叶刀》、《新英格兰医学杂志》(NEJM) 和 Medbullets 收集真实世界的临床问题,以更好地评估 LLM 的临床效用。

    在临床建议任务中,模型需要根据患者的信息提供治疗建议或诊断决策。

    在 AI Hospital 和 AgentClinic 数据集中,我们让模型充当医疗代理。

    此外,在 MedCalc-Bench 数据集中,需要该模型进行数学推理和计算答案。

  • 多语言是指当输入指令和/或输出答案的语言更改为不同的语言时完成任务的能力。

    例如,XMedBench 数据集要求 LLM 用六种语言回答医学问题,包括中文、阿拉伯文、印地文、西班牙语、中文和英文。

    在 AI Hospital 数据集中,模型需要作为使用中文的代理。

3.3指标

在本节中,我们将详细阐述评估管道中使用的指标。

  • 准确率用于直接衡量模型生成的答案与真实值完全匹配的百分比。我们对多项选择题数据集、MedCalc-Bench 数据集以及临床建议和概念识别数据集的部分使用准确性,其中基本真实答案是单个单词或短语。

  • F1分数(Pedregosa 等,2011)是精确率和召回率的调和平均数。它用于模型需要选择多个正确答案的数据集中。

  • BLEU 和 ROUGE 是衡量生成的响应与真实数据之间的相似性的 NLP 指标。具体来说,我们在评估中使用 BLEU-1 和 ROUGE-1 来完成所有自由格式生成任务。

  • AlignScore 是衡量生成文本的事实一致性的指标。在本文中,我们将 AlignScore 用于所有自由格式生成任务,以评估模型幻觉的程度。

  • Mauve是衡量生成文本和人工编写文本分布之间差距的指标。它用于所有自由格式生成任务。

所有指标的范围都在 0 到 100 之间,数字越大表示模型的输出质量越好。

4实验

4.1 实验详情

提示策略。

对于大多数数据集,我们采用与以往文献中描述的相同的提示策略:对于知识 QA 任务、智能体任务、医学计算任务和多语言相关任务,我们使用直接提示评估方法,这与这些基准的设置一致。对于源自 MedS-Bench 的其他任务,我们遵循它们的基准设置,利用少量(3 次)提示策略,其模板如第 A.1 节所示。正如 OpenAI 官方建议的那样,常见的提示技术,如思维链 (CoT) 和上下文示例,可能不会提高 o1 的性能,因为它内置了隐式 CoT。为了进一步验证这一说法,我们还调查了评估中几个高级提示(例如 CoT、Self-Consistency 和 Reflex)的效果,详细的输入指令格式在第 A.1 节

用于评估的模型。

我们选择以下模型进行评估:GPT-3.5 (gpt-3.5-turbo-0125) https://platform.openai.com/docs/models/gpt-3-5-turbo/,这是OpenAI的一种先进语言模型,以其增强的上下文理解能力而闻名;GPT-4 (gpt-4-0125-preview) (Achiam et al., 2023),是GPT-3.5的继任者,在推理和语言理解方面有显著改进;o1 (o1-preview-2024-09-12) (OpenAI, 2024),这是最新的LLM模型,能够通过链式思维推理执行高度复杂的推理。除了这些闭源模型,我们还在实验中纳入了两个开源模型:MEDITRON-70B (Chen et al., 2023),这是一个以医学为中心数据训练的LLM,以及Llama3-8B (Meta, 2024),这是目前最新和最强大的开放LLM。

表 2:2 个方面 4 项任务的准确性 (Acc.) 或 F1 结果。带 * 的模型性能取自参考。我们使用灰色背景来突出显示 o1 结果。我们在表中显示每个指标的平均分数 (Average)

在这里插入图片描述

表 3:BLEU-1 (B-1) 和 ROUGE-1 (R-1) 在 2 个方面的 3 项任务的结果。我们使用灰色背景来突出显示 o1 结果。我们还展示了每个指标的平均分数 (Average)

4.2主要结果:是的!我们离 AI 医生又近了一步

增强 o1 转移到其临床理解的能力。

鉴于 o1 的既定结果,这强调了它在知识和推理能力(如数学问题解决和代码生成)方面的显着有效性,我们观察到这种卓越的能力也可以转移到特定的临床知识理解中。表 中显示的结果表明,在大多数临床任务中,o1 在理解方面优于其他模型。我们还在图 LABEL:fig:radar 中展示了这些统计数据,其中我们观察到 o1 在各种医学数据集中具有更大的覆盖半径。例如,在使用 F1 作为指标的 5 个概念识别数据集上,o1 的表现分别平均优于 GPT-4 和 GPT-3.5 7.6% 和 26.6%(即 72.6% 对 65.0% 对 46.0%),与广泛使用的 BC4Chem 数据集相比,平均提高了 24.5%。

此外,在表3中的总结任务中,o1 的 ROUGE-1 分数比 GPT-4 和 GPT-3.5 分别提高了 2.4% 和 3.7%(即 31.4% 对 29.0% 对 27.7%),表明其对现实世界临床理解的能力增强。这种改进的性能证实了 LLM 的一般 NLP 功能的进步可以有效地转化为增强医学领域的模型理解。

在这里插入图片描述

表 4:AlignScore 和 Mauve 在 2 个方面的 3 项任务上的结果

o1 模型在临床诊断场景中表现出强大的推理能力。

在推理方面,o1 在展示其在实际诊断情况下的优势方面向前迈出了重要一步。在我们新构建的具有挑战性的 QA 任务 NEJMQA 和 LacentQA 中,o1 在各自的数据集上比 GPT-4 (79.6%) 和 GPT-3.5 (61.5%) 的性能平均准确率提高了 8.9% 和 27.1%(表)。o1 的另一个值得注意的改进是它的数学推理能力,将 MedCalc-Bench 的基线提高到 34.9%,比 GPT-4 高出 9.4%。在涉及多轮对话和环境模拟的更复杂的推理场景中,o1 在 AgentClinic 基准测试中优于 GPT-4 和 GPT-3.5,准确率提高了至少 15.5% 和 10%,其 MedQA 和 NEJM 子集的得分分别为 45.5% 和 20.0%。这些观察结果是 o1 在复杂的实际诊断和临床应用场景中的能力的有力证据。

图 4:o1 和 GPT-4 对 LancetQA 问题的回答。与 GPT-4 相比,o1 提供了更简洁、更准确的推理过程。

除了提供更高的准确性外,o1 还提供了更简洁、更直接的答案。在图 所示的示例中,o1 在提供正确答案的同时生成较短的解释。相比之下,GPT-4 往往会在错误答案的同时产生幻觉解释。我们认为 o1 在知识和推理方面的改进主要归因于训练过程中采用的增强数据和基础设施(例如 CoT 数据和强化学习技术)。

这些结果共同为我们在本文中提出的问题提供了肯定的答案:是的!我们越来越接近拥有最新 o1 模型的自动 AI 医生。

图 5:LLM 在两个代理基准上的准确性

4.3 进一步分析

没有模型可以在医疗领域的所有任务中表现出色。

Table 和 Table 表明,就目前而言,在选择要用于医疗领域的模型时,总是需要进行权衡(即使在相同的指标下)。一个例子是表 中的临床决策支持任务 ,o1 在大多数数据集上都优于 GPT-4 和 GPT-3.5,但在 MIMIC4ED-Critical 分诊数据集上的准确性远远落后于 GPT-4 5%。有趣的是,我们还发现最近发布的开放 LLM— Llama3 在 PMC-Patient 和 PICO-Intervention 数据集中处于领先地位,在 PMC-Patient 上,o1 和 Llama3 之间的准确率差距出乎意料地达到 19.6%(76.4% 对 96.0%)。尽管如此,o1 在大多数情况下几乎是最好的,它在临床决策支持、知识 QA 和医学计算方面的数据集中处于领先地位。表格和图形中 19 个数据集的平均结果准确性支持了这一说法 LABEL:fig:bar :o1 (74.3%) > GPT-4 (68.1%) > GPT-3.5 (53.2%)

高级提示可以部分帮助使用 CoT 数据训练的模型。

o1 是使用在训练过程中嵌入的思维链 (CoT) 数据发布的;然而,我们发现应用 CoT 提示仍然可以提高 o1 在医学知识 QA 任务上的表现,如表所示。该表显示,与 o1 的原始 83.6% 准确率相比,平均提高了 3.18%。虽然这种改进不如 GPT-4 显着,但 CoT 被证明是指导 o1 完成医疗任务的一种很有前途的方式。然而,当涉及到其他花哨的提示时,例如 自洽 (SC) 和反射 ,这个结论可能不会停滞不前。我们观察到,与在 LancetQA 上仅使用 CoT 相比,使用这两种策略的平均性能下降了 12.8%(表)。

表 6:5 个知识 QA 数据集上有/没有 CoT 提示的模型结果的准确性结果

幻觉仍然是一个重大挑战。

我们使用 AlignScore 来评估 LLM 中的幻觉。在表中,o1 模型表明,在五个文本摘要数据集中,与 GPT-4 相比,AlignScore 降低了 1.3%。此外,AlignScore 中 o1 在三个任务(表 )中的总体改进明显落后于其他评估指标——相对于 GPT-4,AlignScore 的平均为 0.7,而 Mauve 的平均为 9.9。这表明 o1 仍然容易受到语言幻觉的影响,这突出表明这个问题在 LLM 中仍然是一个持续的挑战。

o1 难以推理复杂的多语言任务。

高级 LLM 应表现出与英语以外的语言相当的推理能力。然而,由于 o1 在多语言 QA 任务中始终优于其他模型:平均 o1 (85.2%) > GPT-4 (75.7%) > GPT-3.5 (54.1%)(表),它在表中更复杂的中国代理基准中表现不佳——显示体检场景的准确性比 GPT-4 下降了 1.6%(43.4% 对 45.0%),使其在复杂情况下的多语言推理有待满足。这个有趣的结果可能归因于 o1 训练期间缺乏多语言 CoT 数据,因为学习复杂的推理路线通常比小镜头范式中的简单指令需要更多的努力。我们在图 中展示了 AI 医院的 o1 故障示例。我们在 doctor 的生成中发现了混合语言输出的实例,这导致了 o1 在这种情况下的次优表现。

LLM 使用不同的指标面临有偏见的判断。

选择不同的指标会导致 LLM 评估的不同结果,在我们的实验中,即使利用传统的 NLP 指标(如 BLEU-1、ROUGE-1 和 Mauve),我们也观察到类似的不一致趋势。在大多数情况下,从表 ,o1 在两个传统的基于参考的测量(即 BLEU-1、ROUGE-1)中平均都超过了 GPT-4。在临床建议任务的 BLEU-1 比较中出现一个例外。虽然 o1 在 ROUGE-L 中明显优于 GPT-4(24.4% 对 17.2%),但它在 BLEU-1 中的表现出人意料地逊色:o1 (15.3) < GPT-4 (16.2)。在考虑 Mauve 分数时,尽管 o1 在文本摘要任务的平均 BLEU-4 和 ROUGE-1 中始终优于 GPT-1,但在 Mauve 中仍然落后 2.9 分,即使在相同的输出文本上进行评估也是如此。在准确性和 F1 分数之间的比较中也可以观察到类似的异常。虽然 Llama3 在两个概念识别数据集的准确率上明显优于 o1,但在相同情况下,它在 F1 中始终落后于 o1。这些发现强调了为现代 LLM 确定或设计更可靠指标的迫切需要。

表 7:在我们的 LancetQA 上使用 o1 使用不同提示的准确性消融结果

表 8:多语言任务 XmedBench 上的模型准确性_(Wang et al., 2024)_

5讨论

o1 会带来哪些不利影响?

正如本文所展示的那样,模型 o1 在一般 NLP 和医学领域都取得了重大进展。但是,与前几代 LLM 相比,o1 对用户有哪些不利影响呢?虽然在生成过程中默认嵌入 Chain of Thought (CoT) 过程需要更多时间,但 o1 与其他 OpenAI 模型究竟有什么区别?在表中,我们看到 o1 在四项医疗任务上的解码时间成本分别比 GPT-4 和 3.5 长 2 × 和 9 ×长(13.18 秒 vs 6.89 秒 vs 1.41 秒)。这种增加的解码时间可能会导致在处理复杂任务时出现较长的等待时间。

此外,o1 并不总是优于其他模型,在不同任务中的性能不一致。例如,在表 中详述的概念识别任务中,与其他 LLM 相比,o1 在一半的数据集上表现不佳。这种差异可能与最近的发现有关,这些发现表明 CoT 数据在更复杂的推理任务中最有利。但是,在不需要复杂推理的任务中,例如概念识别,o1 并没有明显的优势。

重新思考更强大的 LLM 的评估指标。

像 BLEU 和 ROUGE 这样的传统评估指标依赖于 n-gram 重叠,长期以来一直因其在捕获生成文本的质量方面的局限性而受到批评,尤其是对于 LLM。因此,使用 GPT-4 等模型作为评估器,即 .,“LLM as-a-judge”,在评估其他模型的产出方面越来越受欢迎。但是,这种方法在应用于最先进的模型(例如 o1)时可能无效,因为 GPT-4 的能力更差,因此可能会产生不太可靠的评估。对于像医学这样的专业领域尤其如此。因此,越来越需要开发更强大、更细致的评估指标,以更好地评估最先进的 LLM 在复杂场景中的性能。

为未来的 LLM 提供可靠的提示技术。

如 Section 4.3 中所述,并非所有高级提示技术都会对 o1 的性能产生积极影响。由于像 o1 这样的未来 LLM 可能会继续发展,通过内部提示实现高效的用户指导,新的提示方法应考虑它们对现有策略的适应性。一种潜在的探索可能是两种提示策略的整合。

局限性。

虽然我们在医学领域对理解、推理和多语言能力进行了综合评估,但还有许多其他方面需要考虑,例如安全性,我们将它们留给未来的工作。此外,我们将更高级的提示技术,例如检索增强生成 (RAG) 留给未来的工作,这可能会增强事实性并减轻幻觉。值得注意的是,当前类似 GPT 的模型在分类任务中的表现可能仍然不如基于 BERT 的专家。然而,我们在本文中关注类似 GPT 的通才,因为他们作为零样本学习者具有更大的灵活性。

6结论

这项初步研究使用最新的 o1 模型评估了 35 个现有和 2 个新型医学数据集中的 3 个重要方面。它标志着医学中 o1 整体评估的第一步,我们展示了我们的初步结果、分析和对基准的讨论。这些发现提供了令人信服的证据,表明 o1 正在缩小 AI 和人类医生之间的差距,塑造更接近现实的理想 AI 医生的愿景。
这项初步研究使用最新的 o1 模型评估了 35 个现有和 2 个新型医学数据集中的 3 个重要方面。它标志着医学中 o1 整体评估的第一步,我们展示了我们的初步结果、分析和对基准的讨论。这些发现提供了令人信服的证据,表明 o1 正在缩小 AI 和人类医生之间的差距,塑造更接近现实的理想 AI 医生的愿景。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值