别只会step by step!看微软重磅ZEUS:​不确定性的零样本CoT提示方法

为什么我们需要更好的CoT?

我们知道,复杂推理任务通常涉及多步推理、逻辑推理和知识整合,这些任务不仅需要模型具备深厚的知识储备,还需要其能够有效地组织和应用这些知识。研究表明,这种局限性并非源于模型本身能力的缺失,而在于如何有效激发模型的推理能力。思维链(Chain of Thought,CoT)提示技术的出现,为解决这一问题提供了一个创新的视角:通过引导模型生成中间推理步骤,显著提升其在复杂任务中的表现。

思维链提示技术的核心理念在于,**通过在模型生成的过程中插入推理步骤,不仅使得输出结果更加透明和可解释,还能显著提升模型在推理任务中的准确性和一致性。**这种方法不仅在学术研究中引起了广泛关注,也在实际应用中展现出了巨大的潜力。

微软研究团队提出的ZEUS(Zero-shot Uncertainty-based Selection)方法,通过创新性地利用不确定性估计来选择有效的示范样例,在无需访问模型参数的情况下,显著提升了零样本CoT提示的效果。本文将深入探讨ZEUS方法的技术细节、实验结果及其实践指导。

思维链提示的演进

思维链提示技术的发展经历了几个重要阶段,每个阶段都在前人的基础上进行了创新和优化,推动了这一领域的不断进步。

  1. 基础CoT阶段
  • 首次提出于2022年:思维链提示技术最早由研究人员在2022年提出,旨在通过在提示中加入中间推理步骤来提升模型的表现。

  • 通过在提示中加入推理步骤来提升模型表现:这一阶段的核心方法是在提示中显式地包含推理过程,使模型在生成最终答案前,先生成一系列逻辑推理步骤。

  • 证明了显式推理过程对提升模型性能的重要性:实验结果表明,显式的推理过程不仅提高了模型的准确性,还增强了其在复杂任务中的表现稳定性。

  1. 零样本CoT时期
  • 引入简单触发短语(如“让我们一步步思考”):这一时期的研究者发现,仅仅通过在提示中加入简单的触发短语,便可以在不依赖任何示例的情况下,激发模型的推理能力。

  • 无需人工编写示例即可激发模型推理:相比基础CoT阶段,零样本CoT大大降低了实施的复杂性和成本,使得这一技术更易于推广和应用。

  • 大大降低了实施成本:不再需要依赖大量高质量的人工编写示例,减少了人力和时间的投入,使得CoT提示技术更加高效和经济。

  1. 自动化CoT发展
  • 结合自监督学习方法:自动化CoT进一步结合了自监督学习技术,通过让模型自行生成推理步骤和答案,减少了对人工标注的依赖。

  • 自动生成推理步骤和答案:这一阶段的技术创新在于,模型能够自主生成多个推理步骤,并根据这些步骤得出最终答案,提升了整体的推理能力。

  • 通过聚类保持示例多样性:为了确保生成的推理步骤和答案的多样性,自动化CoT方法引入了聚类技术,对生成的示例进行分类和筛选,保证了示例集的多样性和代表性。

现存挑战

尽管思维链提示技术在提升模型推理能力方面取得了显著进展,但现有方法仍面临多个关键挑战,这些挑战限制了其进一步的发展和应用。

  1. 示例质量问题
  • 人工编写的示例质量参差不齐:在基础CoT阶段,示例的质量直接影响模型的表现。然而,人工编写的示例往往存在质量不一致的问题,导致模型在不同任务中的表现波动较大。

  • 示例选择缺乏科学依据:目前大多数示例的选择依赖于经验和直觉,缺乏系统化和科学化的选择标准,难以确保所选示例能够全面覆盖所有推理模式。

  • 维护成本高昂:随着任务和应用场景的不断扩展,人工编写和维护高质量示例的成本显著增加,限制了这一方法的可扩展性。

  1. 可扩展性限制
  • 难以适应新的任务领域:现有的CoT方法在面对新的任务领域时,往往需要重新编写和调整示例,缺乏通用性和灵活性。

  • 需要大量人工干预:无论是基础CoT还是自动化CoT,示例的生成和筛选过程都需要大量的人力投入,限制了其在大规模任务中的应用。

  • 缺乏自动化机制:目前的CoT方法缺乏有效的自动化机制,难以实现示例的动态更新和自适应调整,导致在快速变化的任务需求下难以保持高效和准确。

  1. 性能不稳定
  • 对提示词敏感:模型的表现高度依赖于提示词的具体措辞,即使是微小的变化也可能导致性能的显著波动,缺乏稳定性。

  • 推理过程不够可靠:生成的推理步骤有时缺乏逻辑性和连贯性,影响了最终答案的准确性和可信度。

  • 结果一致性差:在相同的任务和条件下,模型的输出结果可能存在较大的不一致性,难以确保每次生成的答案都具有较高的质量和准确性。

现有CoT方法的深入分析

在深入分析现有的思维链提示方法时,我们可以从其工作机制、技术优势与局限性等多个维度进行评估。这不仅有助于理解各方法的优劣,也为ZEUS方法的创新提供了有价值的参考。

Manual-CoT:优势与局限

Manual-CoT方法是思维链提示技术的早期代表,其核心在于通过人工编写高质量的推理示例来提升模型的推理能力。

  1. 工作机制
  • 需要专家手动编写示例 :这一方法依赖于领域专家手动编写一组包含问题、推理过程和答案的高质量示例。

  • 包含 ( k ) 个示例问题 ( q_j )、人工编写的推理过程 ( r_j ) 和答案 ( a_j ):每个示例不仅包含问题和答案,还包括详细的推理步骤,指导模型如何进行逻辑推理。

  • 通过上下文学习(in-context learning)方式引导模型学习:模型通过学习这些示例中的推理模式,能够在面对新问题时生成相似的推理过程,从而得出准确的答案。

  1. 技术优势
  • 推理过程质量可控:由于示例是由专家精心编写的,推理过程的逻辑性和连贯性得到保证,提升了模型生成推理过程的质量。

  • 可以针对特定任务定制:Manual-CoT方法允许针对不同的任务和应用场景,编写特定的推理示例,提升模型在这些领域的表现。

  • 示例具有教学意义:高质量的推理示例不仅提升了模型的表现,还具有很强的教学意义,能够为后续的研究和应用提供参考和借鉴。

  1. 实际限制
  • 需要领域专家投入大量时间:手动编写高质量的推理示例需要大量的时间和人力投入,尤其在面对复杂和多样化的任务时,这一限制尤为显著。

  • 难以覆盖所有可能的推理模式:由于示例数量有限,Manual-CoT方法难以涵盖所有可能的推理模式,导致模型在面对未见过的推理模式时表现不佳。

  • 扩展成本高昂:随着任务和应用场景的不断增加,手动编写和维护示例的成本显著上升,限制了这一方法的可扩展性和广泛应用。

Zero-Shot-CoT:创新与不足

Zero-Shot-CoT方法通过引入简单的触发短语,显著简化了思维链提示的实施过程,降低了对高质量示例的依赖。

  1. 核心思想
  • 使用触发短语 ( t )(如“让我们一步步思考”):通过在提示中加入特定的触发短语,激发模型生成推理步骤,无需依赖任何人工编写的示例。

  • 无需示例即可生成推理过程:这一方法摆脱了对示例的依赖,使得思维链提示技术更加灵活和高效。

  • 大大简化了实施过程:通过减少对高质量示例的需求,Zero-Shot-CoT方法显著降低了实施的复杂性和成本。

  1. 实现方式
  • 直接将触发短语附加到输入问题:在输入问题的前面或后面加入特定的触发短语,引导模型生成推理步骤。

  • 模型自动生成推理步骤:在触发短语的引导下,模型会自动生成一系列逻辑推理步骤,最终得出答案。

  • 最后得出答案:通过生成的推理步骤,模型能够更准确地回答复杂问题,提升整体的推理能力。

  1. 存在问题
  • 性能不如Manual-CoT:由于缺乏高质量的推理示例,Zero-Shot-CoT方法在某些复杂任务上的表现仍不及Manual-CoT。

  • 推理质量不稳定:生成的推理步骤有时缺乏逻辑性和连贯性,影响了最终答案的准确性和可信度。

  • 缺乏有效的质量控制机制:没有系统化的质量评估和控制手段,导致生成的推理步骤和答案的质量参差不齐,难以确保一致性和可靠性。

Auto-CoT:自动化探索

Auto-CoT方法通过结合Manual-CoT和Zero-Shot-CoT的优势,进一步提升了思维链提示技术的自动化水平和效果。

  1. 技术创新
  • 结合Manual-CoT和Zero-Shot-CoT的优势:Auto-CoT方法既利用了手动编写示例的高质量优势,又借鉴了零样本方法的高效和灵活性。

  • 采用自监督学习方法:通过自监督学习技术,模型能够自主生成推理步骤和答案,减少了对人工标注的依赖。

  • 通过聚类保持示例多样性:利用聚类算法对生成的示例进行分类和筛选,确保示例集的多样性和代表性,提升模型在不同任务上的表现。

  1. 实现流程
  • 使用未标注问题集 ( Q = {q_j}_{j=1}^m ):从大量未标注的问题集中抽取样本,作为生成推理步骤和答案的基础。

  • 自动生成推理过程和答案:模型通过自监督学习技术,自动生成每个问题的推理步骤和最终答案,减少了对人工干预的需求。

  • 通过聚类选择代表性示例:使用聚类算法对生成的示例进行分类,选择具有代表性的示例,确保示例集的多样性和覆盖性。

  1. 现存挑战
  • 生成的推理质量不稳定:尽管自动化程度提高,但生成的推理步骤和答案的质量仍存在波动,难以达到人工编写示例的高标准。

  • 聚类方法可能忽略重要示例:聚类算法可能会因为参数设置或算法局限,忽略某些重要的推理模式,导致示例集的代表性不足。

  • 缺乏有效的质量评估机制:自动化生成和筛选示例的过程中,缺乏系统化的质量评估手段,难以确保最终示例集的高质量和一致性。

ZEUS方法:突破性的创新

在现有CoT方法的基础上,ZEUS方法通过引入不确定性估计和策略选择机制,实现了对模型推理能力的进一步优化和提升。这一创新不仅解决了现有方法的诸多限制,还为思维链提示技术的发展开辟了新的路径。

核心理念与技术基础

ZEUS方法的提出源于一个关键观察:模型对不同问题的不确定性程度与其推理能力密切相关。这种不确定性可以作为选择高质量示例的重要指标,从而指导示例的选择和生成。

  1. 理论基础
  • 基于扰动理论(Perturbation Theory):扰动理论用于分析模型在面对输入扰动时的响应,通过观察模型输出的变化来评估其不确定性。

  • 借鉴主动学习(Active Learning)思想:主动学习强调在有限的标注资源下,选择最有价值的数据进行标注,ZEUS方法通过不确定性估计,选择对模型提升最有帮助的问题进行示例选择。

  • 结合不确定性量化(Uncertainty Quantification)技术:不确定性量化技术用于评估模型对特定输入的置信度,ZEUS方法利用这些量化结果,指导示例的选择和生成过程。

  1. 创新点
  • 无需访问模型参数:ZEUS方法完全基于模型的输出进行评估和选择,不需要访问和修改模型的内部参数,保持了方法的通用性和安全性。

  • 完全基于模型输出进行评估:通过分析模型的输出结果和不确定性,ZEUS方法实现了对示例选择和生成的全面指导,提升了推理过程的质量。

  • 具有高度的通用性和可扩展性:由于不依赖特定的模型结构或参数,ZEUS方法可以广泛应用于不同类型和规模的语言模型,具备良好的可扩展性。

三阶段实现过程详解

ZEUS方法的实现过程分为三个阶段:不确定性估计阶段、基于不确定性的问题选择阶段和示范构建阶段。每个阶段都有其独特的技术和策略,共同构成了这一创新方法的核心

1. 不确定性估计阶段

在这一阶段,ZEUS方法通过三种互补的扰动方式,全面评估模型在不同问题上的不确定性程度。这些扰动方式包括温度扰动、触发短语扰动和问题重构扰动,每种方法都有其独特的优势和应用场景。

a. 温度扰动(Temperature Perturbation)

  • 原理:通过调整采样温度 ( \tau ),观察模型输出的变化,以评估其不确定性。较高的温度值会增加输出的随机性,而较低的温度值则会使输出更加确定。

  • 实现

  • 使用 ( n ) 个不同温度值:( \tau \in {0.1, 0.3, 0.5, 0.7, 0.9} )

  • 对每个温度生成多个响应,记录每次输出的差异

  • 计算响应之间的一致性,评估模型在不同温度下的稳定性

  • 优势

  • 能反映模型的内在不确定性:通过观察模型在不同温度下的表现,能够全面了解其不确定性水平

  • 实现简单,计算效率高:只需调整温度参数,无需复杂的计算过程

  • 结果易于解释:温度值与输出的随机性s {r l j } n l=1直接相关,便于理解和分析

b. 触发短语扰动(Trigger Phrase Perturbation)

  • 方法

  • 使用多个预定义触发短语,如“让我们一步步思考”、“让我们逻辑推理”等

  • 将不同的触发短语附加到输入问题中,观察模型输出的变化

  • 分析不同触发短语下的输出差异,评估模型对提示词的敏感度

  • 特点

  • 测试模型对提示的敏感度:通过不同的触发短语,评估模型对提示词的响应能力

  • 评估推理过程的稳定性:观察不同触发短语下推理步骤的一致性,判断模型推理过程的可靠性

  • 发现最有效的触发方式:通过比较不同触发短语的效果,确定最能激发模型推理能力的提示词

c. 问题重构扰动(Question Reformulation)

  • 技术细节

  • 使用模型自动生成问题的不同表述,保持语义不变,同时改变表达方式

  • 对同一个问题进行多次重构,生成多种不同的表述形式

  • 比较不同表述下的答案一致性,评估模型在不同表述下的理解和推理能力

  • 价值

  • 测试模型的理解深度:通过不同表述,评估模型对问题的深层理解能力

  • 评估推理的鲁棒性:观察模型在面对不同表述时的推理表现,判断其鲁棒性

  • 识别潜在的理解偏差:通过比较不同表述下的答案,发现模型可能存在的理解偏差和错误

2. 基于不确定性的问题选择

在不确定性估计阶段完成后,ZEUS方法通过多种策略利用这些不确定性指标,选择出最有价值的问题进行示例生成和优化。

a. 高不确定性策略(High Uncertainty)

  • 选择标准

  • 优先选择不确定性最高的问题,即模型对这些问题的回答最不确定或最不自信

  • 关注模型最难处理的案例,这些案例往往包含复杂的推理和多步骤的逻辑

  • 建立具有挑战性的示例集,通过这些高难度问题提升模型的整体推理能力

  • 应用场景

  • 提升模型在困难案例上的表现:通过针对高不确定性问题进行优化,增强模型在复杂任务中的表现

  • 发现模型的潜在弱点:高不确定性问题往往揭示了模型的知识盲点和推理缺陷

  • 构建全面的测试集:包括高不确定性问题的测试集能够全面评估模型的推理能力和知识覆盖

b. 低不确定性策略(Low Uncertainty)

  • 实现方法

  • 选择不确定性最低的问题,即模型对这些问题的回答最为自信和确定

  • 确保示例的可靠性,通过高确定性问题建立稳固的基础

  • 建立基准示例集,作为模型性能的参考标准

  • 使用情况

  • 构建高质量的基础示例:通过低不确定性问题,确保示例集的基础质量和可靠性

  • 验证模型的基本能力:低不确定性问题能够有效验证模型在基础知识和推理能力上的表现

  • 建立可信的评估标准:基于低不确定性问题的评估标准,能够为模型的性能评估提供可靠的基准

c. 混合策略(Mixed Strategy)

  • 设计思路

  • 结合高低不确定性问题,保持示例集的多样性和全面性

  • 平衡难易程度,通过包含不同难度的问题,提升模型在各种任务中的适应能力

  • 提供全面的学习样本,确保模型在面对不同类型的问题时都具备良好的推理能力

  • 优势

  • 适应不同难度的任务:通过混合策略,模型能够在面对简单和复杂任务时都能表现出色

  • 提高模型的泛化能力:多样化的示例集有助于模型更好地泛化到未见过的问题和情境

  • 保持示例集的代表性:混合策略确保示例集涵盖了各种推理模式和问题类型,提升了示例集的代表性和覆盖性

3. 示范构建阶段

在选择出高质量的问题后,ZEUS方法通过有效的示范构建策略,组织和利用这些示例,以最大化其对模型推理能力的提升。

a. 向量化处理

  • 技术实现

  • 使用Sentence Transformers编码:利用Sentence Transformers将问题和推理步骤编码为高维语义向量,捕捉其深层次的语义关系

  • 生成高维语义表示:通过向量化处理,将文本转化为模型可以理解和处理的高维向量,便于后续的聚类和筛选

  • 捕捉问题间的语义关系:高维向量能够有效表示问题之间的语义相似性和差异性,支持多样化示例集的构建

b. 聚类优化

  • 方法细节

  • 采用k-Means++算法:利用k-Means++算法进行聚类,确保初始聚类中心的选择具有较好的分布,提升聚类效果

  • 自动确定最优聚类数:通过分析聚类的内在结构和性能指标,自动确定最优的聚类数,避免人为干预和偏差

  • 保证示例集的代表性:通过聚类优化,选择各类问题的代表性示例,确保示例集能够全面覆盖不同的推理模式和问题类型

c. 示例组织

  • 实现策略

  • 按难度梯度排序:将示例按照难度从易到难进行排序,确保模型在学习过程中逐步适应复杂推理

  • 构建逻辑连贯的示例序列:通过逻辑连贯的示例序列,引导模型逐步建立起复杂推理的能力和逻辑框架

  • 优化示例呈现顺序:根据模型的学习曲线和表现,动态调整示例的呈现顺序,提升学习效果和推理能力

实验结果与性能评估

为了验证ZEUS方法的有效性和优越性,研究者在四个具有挑战性的推理数据集上进行了全面的实验和性能评估。实验结果表明,ZEUS方法在多个推理任务中均表现出色,显著超越了现有的CoT策略。

实验设置与基准测试

数据集

研究者在四个具有挑战性的推理数据集上评估了所提出的方法:

  1. GSM8K(Cobbe et al., 2021)
  • 特点:包含算术推理问题。

  • 样本规模:已预先划分为训练集和测试集,无需进一步划分。

  1. StrategyQA(Geva et al., 2021)
  • 特点:需要隐含的多跳推理的问答基准。

  • 样本规模:通过分层抽样将数据集分为未标注集(70%)用于示范创建和测试集(30%)用于零样本性能评估。

  1. Logical Fallacy(Fallacy)(Jin et al., 2022)
  • 特点:涉及对论证的推理以及检测形式和非形式谬误的任务。

  • 样本规模:通过分层抽样将数据集分为未标注集(70%)用于示范创建和测试集(30%)用于零样本性能评估。

  1. Epistemic Reasoning(EPR)(Sileo and Lernould, 2023)
  • 特点:自然语言推理任务,挑战LLMs对人类心理状态的推理能力。

  • 样本规模:通过分层抽样将数据集分为未标注集(70%)用于示范创建和测试集(30%)用于零样本性能评估。

实现细节

研究者在五种大型语言模型(LLMs)上进行了实验,包括:

  • GPT-4o(OpenAI, 2024)

  • Mistral-7BInstruct-v0.2(Mistral)(Jiang et al., 2023)

  • Phi3-mini-4k-instruct(Phi3)(Abdin et al., 2024)

  • text-davinci-002(GPT-3 XL)

  • text-davinci-003(GPT-3.5)(Brown et al., 2020)

这些模型包括开源模型(Phi3, Mistral)和专有模型(GPT-4o, GPT-3.5, GPT-3 XL)。为了确保与先前工作的公平比较(如Auto-CoT),我们在所有数据集上使用了 ( k = 8 ) 个示范,StrategyQA数据集使用了 ( k = 6 ) 个示范。此外,在评估LLMs时,研究者将温度设置为0以确保输出的确定性,并报告了三次运行的平均性能以保持预测的一致性。

不确定性估计在ZEUS中的应用

ZEUS中的不确定性估计采用了三种扰动方法的组合:

  1. 非零温度解码(Non-zero Temperature Decoding)

  2. 触发短语变体(Trigger Phrase Variation)

  3. 问题重构(Question Rephrasing)

具体步骤如下:

  • 使用五种触发短语:

  • 空(Empty)

  • “让我们一步步思考。”“Let’s think step by step.”(SS)

  • “让我们逻辑推理一步步思考。”“Let’s think about this logically step by step.”(LSS)

  • “在深入回答之前,”“Before we dive into the answer,”(BDA)

  • “在回答问题之前,让我们理解输入。”“Before answering the question, let’s understand the input.”(BQU)

  • 对于每个问题,使用温度为1生成每种触发短语下的两个推理-答案对,总共生成10对。

  • 使用指令“重述以下段落”由GPT-4o自动重构问题,并在重构后的问题上使用触发短语和温度为0生成五个额外的推理-答案对,确保响应的精确性。

  • 因此,每个问题总共生成15对推理-答案对,用于估计不确定性。

选择策略

研究者基于未标注集 ( Q ) 中不确定性值的均值 ( \mu ) 和标准差 ( \sigma ) 定义了七种选择策略,如表1所示。这些策略包括:Trivial、Very Easy、Easy(选择最低不确定性示范)、Challenging、Hard、Very Hard(聚焦高不确定性值)以及Moderate(选择围绕 ( \mu ) 的中等不确定性示范)。

基线方法

研究者将ZEUS与五种基线方法进行比较:

  1. Zero-Shot

  2. Few-Shot

  3. Zero-Shot-CoT(Kojima et al., 2022)

  4. Manual-CoT(Few-Shot-CoT)(Wei et al., 2022)

  5. Auto-CoT

实验结果分析

1. 不确定性分布分析

我们分析了不同LLMs在四个推理数据集上的不确定性估计的均值(μ)和标准差(σ)。例如,图3展示了GPT-3.5在GSM8K数据集上的不确定性分布。图2通过误差条图展示了未标注集(Q)上的μ和σ。

结果显示,GPT-3 XL和Mistral在GSM8K任务上具有较高的不确定性和较大的标准差,而在StrategyQA和EPR任务上,不确定性较为一致,GPT-4o的变化最小。这表明模型的不确定性高度依赖于任务复杂性,复杂推理任务导致更高的预测变异性。

2. 不确定性估计的灵敏度

为了评估不确定性估计在区分有用与冗余问题上的灵敏度,我们通过线性回归分析置信评分与答案准确性之间的关系。理想情况下,回归斜率应为1。

将ZEUS的置信评分方法与基于温度扰动的Temp-Perb方法(Wan et al., 2023; Diao et al., 2023; Gao et al., 2024)进行比较。图5显示,ZEUS在所有数据集上斜率系数更接近1,而Temp-Perb在Logical Fallacy和EPR数据集上的灵敏度较低,GSM8K数据集中Temp-Perb斜率系数超过1,表现出过度灵敏。

3. 选择策略的影响

图4展示了所有选择策略的标准化准确率,包括Auto-CoT。结果表明,Auto-CoT在所有LLMs和数据集上均被至少一种其他策略超越,说明基于不确定性的示范创建策略更有效。表2列出了各模型和数据集的最佳与最差选择策略。

LLMs可分为高级模型(GPT-4o, Phi3, GPT-3.5)和简单模型(Mistral, GPT-3 XL)。高级模型在处理Hard和Challenging问题时表现最佳,而简单模型在Trivial和Easy策略下表现更佳,但在高难度策略下表现不佳。Trivial和Very Hard策略普遍导致较低的准确性,Hard和Challenging策略则对不同模型效果最佳。

尽管不同任务和模型间存在性能差异,如Mistral在EPR任务上随着Moderate和Hard策略表现下降,但在其他任务上高不确定性策略表现提升,表明最优策略选择依赖于具体任务和模型。

4. 选择最优选择策略

确定最优策略时,我们在未标注集(Q)上计算平均不确定性,选择熵最低的策略,通常对应更高的准确性。Temp-Perb虽然灵敏度不足,但其良好校准性适用于选择最佳策略。

图6显示,GPT-4o在Temp-Perb基于不确定性估计的各种选择策略中,准确性与不确定性呈负相关。

5.5 与基线方法的比较

选择最低不确定性的策略记作ZEUS (LU),选择最高准确性的策略记作ZEUS (HA)。表3显示,ZEUS (LU) 和 ZEUS (HA) 性能相近,体现了Temp-Perb估计的稳健性。

我们可以发现,ZEUS (LU) 在GSM8K、Fallacy和StrategyQA数据集上通常超越所有基线方法,仅GPT-3 XL在Fallacy上略逊一筹。对于StrategyQA,Manual-CoT在多数模型上表现最佳,而在EPR数据集上,ZEUS方法普遍优于Zero-Shot、Zero-Shot-CoT和Auto-CoT方法。ZEUS方法在无需手动注释的情况下,能够匹配或超越基线策略的准确性。

关键发现

通过深入分析实验结果,ZEUS方法展现出以下关键优势和改进:

  1. 不确定性估计的有效性
  • 高度准确的校准性:不确定性估计与实际性能高度相关,确保了高不确定性问题得到有效识别和处理

  • 强大的区分能力:能够准确区分不同难度和类型的问题,指导示例的选择和生成

  • 稳定的性能提升:通过有效的示例选择和生成,ZEUS方法在多个任务中稳定提升了模型的推理能力

  1. 策略选择的重要性
  • 任务特性影响策略选择:不同任务的特性决定了最佳的策略选择,高不确定性策略在复杂任务中更为有效,而混合策略在综合性任务中表现最佳

  • 混合策略普遍表现最好:通过结合高低不确定性问题,混合策略在多样化任务中提供了全面的支持,提升了模型的泛化能力

  • 策略自适应的可能性:未来可以根据任务需求和模型表现,动态调整策略选择,实现更高效的示例选择和生成

  1. 规模效应分析
  • 性能提升与模型规模正相关:ZEUS方法在更大规模的模型上表现更为显著,表明其在复杂任务中的潜力和优势

  • 计算开销可控:通过合理的策略选择,能够在不同规模的模型上实现性能与效率的平衡,确保了方法的实用性

  • 良好的扩展性:ZEUS方法在不同规模的模型上均表现出良好的适应性,具备高度的通用性和可扩展性,适用于广泛的应用场景

ZEUS方法的提出和实现代表了思维链提示技术的一个重要里程碑。通过创新性地利用不确定性来指导示例选择,该方法不仅提高了零样本学习的效果,还为Prompt工程师提供了一个强大而实用的工具。

研究结果表明,ZEUS在多个具有挑战性的推理任务中都取得了显著的性能提升,这种提升源于其独特的不确定性估计方法和灵活的策略选择机制。对于Prompt工程师来说,ZEUS提供了一个可靠的框架来优化和提升模型的推理能力。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值