【算法工程师面试】大模型(LLM)相关-ChatGLM篇

摘抄自机器学习社区,仅供自己学习。

一、基础知识

1.目前主流的开源模型体系有哪些?

1,transformer体系,如BERT、GPT等

2.Pytorch Lightning:基于Pytorch的轻量级深度学框架,用于快速原型设计和实验。

3.Tensorflow Model Garden:Tensorflow官方提供的一系列预训练模型和模型架构

4.Hugging Face Transformers:流行的开源库,提供了大量预训练模型和工具,用于NLP任务。

2.prefix LM和causal LM

prefix LM,前缀语言模型,在输入序列的开头添加一个可学习的任务相关的前缀,然后使用该前缀和输入序列一起生成输出。用于一道模型生成适应特定任务的输出。

causal LM,因果语言模型,也成为自回归语言模型,根据之前生成的token预测下一个token,在生成文本时,模型只能根据已经生成的部分生成后续部分,不能访问未来的信息。

3.涌现能力?幻觉?

涌现能力是指模型在训练过程中突然表现出新的、之前未曾预料到的能力,这种现象通常发生在大模型中,原因是大模型具有更高的表示能力和更多的参数,可以更换的捕捉数据中的模式和关联。随着模型规模的增加,它们能自动学习到更复杂、更抽象的概念和规律,从而展现出涌现能力。

幻觉是指模型在生成文本时产生的不准确、无关或者虚构的信息。

业内的解决方案包括:使用更多的数据、引入外部知识源、强化模型的推理能力和逻辑推理。

4.大模型架构?

大模型通常采用基于Transformer的架构,Transformer由多个编码器和多个解码器组成。

5.用过哪些系列的开源大模型

GPT系列、BERT系列、T5系列、GLM系列。

6.大模型的Tokenizer的实现方法及原理?

大模型的Tokenizer通常使用字节对编码。BPE算法通过迭代地将最频繁出现的字节合成新的符号,构建一个词汇表,在训练过程中,模型会学习这些符号的嵌入表示。tokenizer将输入文本分割成符号序列,然后将其转换为模型可以处理的数字表示。这种方法可以有效地处理大量文本数据,并减少词汇表的规模。

7.灾难性遗忘

可能是因为模型在微调过程中学习到了过多的特定任务的知识,而忽略了通用的语言知识,这可能导致模型在训练数据上表现良好,但是在为见过的数据上表现不佳。为了解决这个问题,可以采用多任务学习,控制微调强度,定期使用通用数据回炉训练等。

二、GLM系列

1.ChatGLM3的词表实现方法

ChatGLM3使用了一种改进的词表实现方法。它首先使用字节对编码构建一个基本的词表,然后在训练过程中通过不断更新此表来引入新的词汇。具体而言,ChatGLM在训练过程中会根据输入数据动态地合并出现频率较高的字节对,从而形成新的词汇。ChatGLM3还使用了一种特殊的此表分割方法,将此表分为多个片段,并在训练过程中逐步更新这些片段,以提高模型的泛化能力和适应性。

2.GPT3、LLAMA、ChatGPT的Layer Normalization的区别是什么?各自的优缺点是什么?

GPT3:采用了Post-Layer Normalization(后标准化)的结构,即先进行自注意力或前馈神经网络的计算,然后进行Layer Normalization。这种结构有助于稳定训练过程,提高模型性能。

LLaMA:采用了Pre-Layer Normalization(前标准化)的结构,即先进行进行Layer Normalization,再进行自注意力或前馈神经网络的计算,这种结构有助于提高模型的性能和稳定性。

ChatGLM:采用了Post-Layer Normalization(后标准化)的结构,这种结构有助于稳定训练过程,提高模型性能。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值