超详细!AIGC面试系列 大模型进阶(1)

1. 大模型常用的激活函数有哪些?

  1. ReLU(Rectified Linear Unit):ReLU 是目前神经网络中最常用的激活函数之一。它的函数形式如下:
    f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x)
    ReLU 将负数变为零,保持正数不变,具有简单的计算和快速收敛的特点 。

  2. GELU(Gaussian Error Linear Units):GELU 是 ReLU 的平滑版本。它的定义如下:
    GELU ( x ) = x ⋅ Φ ( x ) \text{GELU}(x) = x \cdot \Phi(x) GELU(x)=xΦ(x)
    其中 Φ ( x ) \Phi(x) Φ(x) 是标准正态分布的累积分布函数(CDF)。GELU 在一些情况下比 ReLU 更优,因为它是处处可微的非线性函数 。

  3. Swish:Swish 是对带有非零负值梯度的 ReLU 的平滑版本。它的定义如下:
    Swish ( x , β ) = x ⋅ 1 1 + e − β x \text{Swish}(x, \beta) = x \cdot \frac{1}{1 + e^{-\beta x}} Swish(x,β)=x1+eβx1
    Swish 同样是处处可微的非线性函数,其中参数 (\beta) 控制函数的形状。在实验中,通常取 β = 1 \beta = 1 β=1

  4. SwiGLU:SwiGLU 是 Gated Linear Units(GLU)激活函数的一种变体,由 Noam Shazeer 在论文《GLU Variants Improve Transformer》中提出。它采用 Swish 作为激活函数的 GLU 变体,用于增强 Transformer 架构中的 Feed-Forward Network(FFN)层的性能。SwiGLU 的定义如下:
    SwiGLU ( x , W , V , b , c ) = Swish 1 ( x W + b ) ⊗ ( x V + c ) \text{SwiGLU}(x, W, V, b, c) = \text{Swish}_1(xW + b) \otimes (xV + c) SwiGLU(x,W,V,b,c)=Swish1(xW+b)(xV+c)
    其中 ⊗ \otimes 表示逐元素乘法。SwiGLU 引入了更多的权重矩阵,通常会对隐藏层的大小做一个缩放,以保证整体的参数量不变。

References

[1]: 大模型基础|激活函数|从ReLU 到SwiGLU - 知乎
[2]: 昇腾大模型|结构组件-2——ReLU、GeLU、SwiGLU、GeGLU
[3]: 深度学习中常见激活函数的原理和特点-腾讯云开发者社区-腾讯云
[4]: 大模型组件—激活函数 - 知乎

2. Multi-query Attention 与 Grouped-query Attention 是否了解?区别是什么?

  1. Multi-Head Attention (MHA):

    • 在MHA中,每个头都有自己独立的键值对(key-value pairs)。
    • 每个头都会计算一组注意力权重,然后将这些权重组合起来以获得最终的输出。
    • MHA通常用于Transformer等模型中,以增强模型对不同位置的信息的感知能力。
  2. Multi-Query Attention (MQA):

    • MQA与MHA不同,它让所有的头共享同一组键值对。
    • 每个头只保留一个独立的查询参数,从而大大减少了键值矩阵的参数量。
    • 这种共享的设计有助于减少计算成本,同时仍然保持了多头注意力的优势。
  3. Grouped-Query Attention (GQA):

    • GQA将查询头分成多个组,每个组共享一个键值矩阵。
    • 例如,如果有N组,那么就会有N个共享的键值矩阵。
    • GQA-N表示具有N组的Grouped-Query Attention。

References

[1]: 理解Attention:从起源到MHA,MQA和GQA - 知乎
[2]: MHA、MQA、GQA区别和联系-CSDN博客
[3]: MHA、MQA、GQA区别和联系 - 知乎
[4]: 大模型中的注意力机制——MHA、GQA、MQA - CSDN博客

3. GPT3、LLAMA、ChatGLM 的Layer Normalization 的区别是什么?各自的优缺点是什么?

  1. GPT-3:

    • Layer Normalization:GPT-3 使用了普通的 Layer Normalization。
    • 优点
      • 参数量大,具有强大的语言建模能力。
      • 在多个 NLP 任务上表现出色。
    • 缺点
      • 训练和推理成本高,需要大量计算资源。
      • 对于特定任务可能存在过拟合问题。
  2. LLAMA:

    • Layer Normalization:LLAMA 使用了 RMSNorm(Root Mean Square Layer Normalization)对输入数据进行标准化.
    • 优点
      • 性能优异:130 亿参数的 LLaMA 模型在大多数基准上胜过 GPT-3,而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。
      • 可以在单块 V100 GPU 上运行。
    • 缺点
      • 需要更多的技术细节来稳定训练。
  3. ChatGLM:

    • Layer Normalization:ChatGLM 的底座模型使用了 RMSNorm,而ChatGLM-3 使用了 SwiGLU 激活函数.
    • 优点
      • ChatGLM-3 在性能和设计方面进行了改进,具有更大的输入长度和广泛的语言支持。
      • ChatGLM-3 注重简洁高效。
    • 缺点
      • 需要更多的技术细节来稳定训练。

References

[1]: 超全总结!大模型算法岗面试指南来了! - 知乎
[2]: LLMs模型速览(GPTs、LaMDA、GLM/ChatGLM、PaLM …
[3]: 【LLM系列之底座模型对比】LLaMA、Palm、GLM …
[4]: Llama 2 vs GPT-4:有何区别? | Linux 中国 - 知乎
[5]: 大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及 …

4. llama 输入句子长度理论上可以无限长吗?

理论上,LLMs(大型语言模型) 可以处理任意长度的输入句子,但实际上存在一些限制

  1. 训练数据限制:LLMs在训练时学习的上下文窗口是有限的。更长的文本需要通过滑动窗口的方式分段处理。因此,理论上 RoPE 的 LLaMA 可以处理无限长度,但是太长的输入效果可能不佳,尤其是对于没有训练过的长度 .

  2. 长度外推性问题:想要让没有训练过的长度效果好,需要解决“长度外推性”问题。这意味着我们需要让模型在处理超出训练数据长度的输入时表现良好。目前,LLMs通常会限制在一定的输入长度范围内,例如2k的长度限制.

References

[1]: LLM学习记录(一)–关于大模型的一些知识 - 知乎
[2]: 大模型面试题目-LLaMA(Large Language Model Meta AI …
[3]: 大语言模型综述<演进,技术路线,区别,微调,实践,潜在 …

5. 大模型长下文能力的提升关键是什么?

大型语言模型(LLM)的长上下文能力是一个显著的发展趋势。在过去的一年里,出现了几种长上下文语言模型,例如GPT-4(32k上下文)、MosaicML的MPT(65k上下文)以及Anthropic的Claude(100k上下文)。

然而,扩展Transformer模型的上下文长度是具有挑战性的,因为其核心注意力层的计算和内存复杂度与输入序列长度的平方成正比。为了解决这个问题,研究人员提出了一种快速、内存高效的注意力算法——FlashAttention。该算法无需近似即可加速注意力计算并减少内存占用,从而消除了GPU内存瓶颈。

以下是关于大模型长上下文能力的一些关键问题:

  1. 是否在固有短序列数据上浪费了注意力计算开销? 传统的预训练方法将来自随机文件的词元打包到上下文窗口中,导致16-32K的词元窗口中包含了许多不相关的文档。因此,研究人员建议使用更具意义的长文本预训练数据,例如通过超链接连接网页文档或通过代码库结构连接代码文件。

  2. 如何创建有意义的长文本预训练数据? 使用元数据(meta-data)可以创建更长的预训练数据,例如通过超链接连接网页文档,或者通过代码库结构连接代码文件。

  3. 是否可以在训练过程中使用可变的序列长度? 考虑到计算时间的增加,研究人员通常在微调阶段才使用长上下文,而在预训练阶段使用较短的序列长度。

  4. 如何评估长上下文能力? 长上下文能力的评估需要综合考虑模型的计算效率、内存占用和任务性能。

References

[1]: 大模型长上下文运行的关键问题 - 知乎
[2]: 语言模型长上下文研究总结 - 知乎
[3]: 如何让大模型处理更长的文本?_大模型如何提升长上下文 …
[4]: 一文理解“上下文学习”----大语言模型突现能力 - 知乎
[5]: 斯坦福大学:大模型“卷”错方向了?上下文窗口越长,模型越 …

6. 什么是 LLMs 复读机问题?

LLMs复读机问题指的是大型语言模型(LLMs)在生成文本时出现的一种现象,即模型倾向于无限地复制输入的文本或者以过度频繁的方式重复相同的句子或短语。这种现象使得模型的输出缺乏多样性和创造性,给用户带来了不好的体验 。

References

[1]: 什么是 LLMs 复读机问题? - 知乎

7. 为什么会出现 LLMs 复读机问题?

LLMs 复读机问题指的是大型语言模型(LLMs)在生成文本时出现的一种现象,即模型倾向于无限地复制输入的文本或者以过度频繁的方式重复相同的句子或短语。这种现象使得模型的输出缺乏多样性和创造性,给用户带来了不好的体验。

复读机问题可能出现的原因包括:

  1. 数据偏差:大型语言模型通常是通过预训练阶段使用大规模无标签数据进行训练的。如果训练数据中存在大量的重复文本或者某些特定的句子或短语出现频率较高,模型在生成文本时可能会倾向于复制这些常见的模式。
  2. 训练目标的限制:大型语言模型的训练通常是基于自监督学习的方法,通过预测下一个词或掩盖词来学习语言模型。这样的训练目标可能使得模型更倾向于生成与输入相似的文本,导致复读机问题的出现。
  3. 缺乏多样性的训练数据:虽然大型语言模型可以处理大规模的数据,但如果训练数据中缺乏多样性的语言表达和语境,模型可能无法学习到足够的多样性和创造性,从而导致复读机问题的出现。

References

[1]: 什么是 LLMs 复读机问题? - 知乎
[2]: 大模型面试题目-LLMs 复读机问题 - 知乎
[3]: LLM面面观之LLM复读机问题及解决方案 - 知乎

8. 如何减轻LLMs的复读机问题?

  1. 多样性训练数据:在训练阶段,尽量使用多样性的语料库来训练模型,避免数据偏差和重复文本的问题。从不同领域、不同来源和不同风格的文本中获取数据。

  2. 引入噪声:在生成文本时,可以引入一些随机性或噪声。例如,通过采样不同的词或短语,或者引入随机的变换操作,以增加生成文本的多样性。

  3. 温度参数调整:温度参数是用来控制生成文本的多样性的一个参数。通过调整温度参数的值,可以控制生成文本的独创性和多样性,从而减少复读机问题的出现。

  4. 后处理和过滤:对生成的文本进行后处理和过滤,去除重复的句子或短语,以提高生成文本的质量和多样性。

References

[1]: 什么是 LLMs 复读机问题? - 知乎
[2]: 大模型LLM的复读机问题分析 - 知乎
[3]: LLM面面观之LLM复读机问题及解决方案 - 知乎

9. 什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型?

Bert 模型由多层双向的 Transformer 编码器组成,共有 12 层,每层包含 768 隐藏单元和 12 个头,总共约有 1.15 亿个参数。Bert 在自然语言理解(NLU)任务方面表现良好,例如实体识别、信息抽取和文本分类。它适用于单卡 GPU 部署,速度较快。

ChatGLM-6BLLaMA-7B 是大型模型,分别具有 60 亿和 70 亿个参数。这些大型模型基本上可以处理所有自然语言处理(NLP)任务,效果出色。然而,大型模型的部署成本较高,需要具备大显存的 GPU,并且预测速度较慢,即使在 V100 GPU 下也需要每秒处理一条数据。

因此:

  1. NLU 相关任务:对于实体识别、信息抽取和文本分类等 NLU 任务,使用 Bert 模型即可,无需使用大型模型。
  2. NLG 任务:如果需要生成纯中文文本,可以使用 ChatGLM-6B。如果需要处理中英文任务,可以使用 chinese-alpaca-plus-7b-hf 模型。

References

[1]: 什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大 …
[2]: 大模型面试题目-什么情况用Bert模型,什么情况用LLaMA …
[3]: 什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型?
[4]: 大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及 …

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>