从loss角度理解LLM涌现能力

如今的很多研究都表明小模型也能出现涌现能力,本文的作者团队通过大量实验发现模型的涌现能力与模型大小、训练计算量无关,只与预训练loss相关。

作者团队惊奇地发现,不管任何下游任务,不管模型大小,模型出现涌现能力都不约而同地是在预训练loss降低到 2.2 以下后。

ViT

2.2 之前,模型的表现跟一般模型无异。在 2.2 之后,模型的性能显著上升。

数学建模

模型涌现能力与预训练loss的关系,公式化如下:
{ f ( L )  if  L < η 0  otherwise  \begin{cases}f(L) & \text { if } L<\eta \\ 0 & \text { otherwise }\end{cases} {f(L)0 if L<η otherwise 

f ( L ) f(L) f(L) 是个单调递减函数, L L L 越大,其值越小。 η \eta η 是个loss阈值,比如 2.2

预训练loss与模型大小 N N N 关系如下:
L ( N ) = L ∞ + ( N 0 N ) α N L(N)=L_{\infty}+\left(\frac{N_0}{N}\right)^{\alpha_N} L(N)=L+(NN0)αN

因此涌现能力与模型大小的关系如下:
{ f ( L ∞ + ( N 0 N ) α N )  if  N ≥ N 0 ⋅ ( η − L ∞ ) − 1 α N 0  otherwise  \begin{cases}f\left(L_{\infty}+\left(\frac{N_0}{N}\right)^{\alpha_N}\right) & \text { if } N \geq N_0 \cdot\left(\eta-L_{\infty}\right)^{-\frac{1}{\alpha_N}} \\ 0 & \text { otherwise }\end{cases} {f(L+(NN0)αN)0 if NN0(ηL)αN1 otherwise 

当模型大小超过 N 0 ⋅ ( η − L ∞ ) − 1 α N N_0 \cdot\left(\eta-L_{\infty}\right)^{-\frac{1}{\alpha_N}} N0(ηL)αN1,才会出现涌现能力,否则与普通模型无异。随着模型尺寸变大,预训练loss减少,则模型性能提升。

总结

本文从预训练loss角度观察了模型涌现能力是如何发生的。其结论也给业界评估模型在下游任务上的性能提供了全新的视角,即预训练loss,而不是模型参数量、数据量、训练计算量。

但本文并未从理论角度解释loss与涌现能力的关系,更多地是根据后验进行启发式分析,也未给出 2.2 的合理说明。但DL一直这么玄学,不是吗?


参考

  • 21
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
LLM(Large Language Model)模型是指基于深度学习的大型语言模型,如GPT(Generative Pre-trained Transformer)模型。下面是对LLM模型工作原理的简要解释: 1. 输入表示:LLM模型的输入是一段文本序列,可以是一个问题或一个完整的对话历史。在输入之前,文本需要经过分词和编码等预处理步骤,将其转换为模型可以处理的形式。 2. 嵌入表示:经过预处理后,文本序列中的每个词或字符会被映射为低维稠密的嵌入向量表示。这些嵌入向量捕捉了语义和语法信息,并用于传递输入文本的语义信息给模型。 3. Transformer架构:LLM模型通常基于Transformer架构,这是一种基于自注意力机制的深度神经网络。Transformer模型由多个编码器和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。 4. 自注意力机制:自注意力机制允许模型在编码输入时关注输入序列中不同位置的信息,并学习它们之间的依赖关系。通过计算注意力权重,模型可以分配不同位置的重要性,并从整个序列中提取上下文相关的表示。 5. 预测生成:在训练过程中,LLM模型使用自回归(autoregressive)的方式来预测下一个词或字符的概率。模型根据之前生成的文本和当前上下文,通过softmax函数计算所有可能词的概率分布,并选择概率最高的词作为生成结果。 6. 预训练和微调LLM模型通常采用预训练和微调的策略。预训练阶段,模型在大规模无标签的文本数据上进行训练,学习语言的统计规律和语义表示。微调阶段,模型在特定任务或领域的有标签数据上进行训练,以适应具体的应用需求。 通过以上步骤,LLM模型可以理解输入文本的语义,并生成连贯、合理的自然语言回答。需要注意的是,实际的LLM模型可能会有多个变体和改进,具体的工作原理可能会有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值