《大语言模型》综述学习笔记

A Survey of Large Language Models》英文版综述最近出了中文版书——《大语言模型》,本博客作为阅读笔记记录一下,综述主页:https://github.com/RUCAIBox/LLMSurvey

关于LLM的一些概述和理解

记录一些有启发性的说法:

1、当前大语言模型的技术路线图:“解码器架构+预测下一个词”,即通过在海量文本上进行下一个词预测的优化,使得模型能够学习到丰富的语义知识信息,进而通过文本补全的方式解决各种下游任务。

在这种通用的预训练范式下,模型能力本质上是来源于所见过的训练数据,因此数据工程就变得极为重要,不是简单的扩大数据规模就能够实现的。目前来说,数据工程主要包括三个方面。首先,需要对于数据进行全面的采集,拓宽高质量的数据来源;其次,需要对于收集到的数据进行精细的清洗,尽量提升用于大模型训练的数据质量;第三,需要设计有效的数据配比与数据课程,加强模型对于数据语义信息的利用效率。这三个方面的数据工程技术直接决定了最后大语言模型的性能水平。

2、大语言模型,泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。

3、一般来说,指令微调很难教会大语言模型预训练阶段没有学习到的知识与能力,它主要起到了对于模型能力的激发作用,而不是知识注入作用。

4、涌现能力:当模型扩展到一定规模时,模型的特定任务性能突然出现显著跃升的趋势,远超过随机水平

5、大语言模型发展时间线

6、开源模型

  • LLaMA 和LLaMA-2:Meta AI
  • ChatGLM:智谱AI 和清华大学联合开
  • Falcon:是阿布扎比的技术创新研究院(TII)
  • Baichuan 和Baichuan-2:百川智能
  • InternLM 和InternLM-2:上海人工智能实验室
  • Qwen:阿里
  • Mistral:Mistral AI
  • DeepSeek LLM:幻方公司
  • Mixtral:全称为Mixtral 8X7B,Mistral AI
  • Gemma:谷歌
  • MiniCPM:面壁智能与清华大学共同研发
  • YuLan-Chat:中国人民大学

预训练

数据准备

1、数据收集

从下图中我们可以看到,绝大多数的大语言模型都选用了网页、书籍和对话文本等通用语料作为预训练数据。除了这些通用文本外,还有专门文本,例如语言文本、科学文本(如arXiv 论文、科学教材)、代码等

2、数据预处理

当收集了丰富的文本数据之后,为了确保数据的质量和效用,还需要对数据进行预处理,从而消除低质量、冗余、无关甚可能有害的数据。如:

质量过滤

质量过滤——基于简单统计指标的过滤:使用语料中标点符号分布、符号与单词比率、句子长度等特征来衡量文本质量。

质量过滤——基于关键词的过滤:

质量过滤——基于分类器的过滤:目前常用来实现分类器的方法包括轻量级模型(如FastText 等)、可微调的预 训练语言模型(如BERT、BART 或者LLaMA 等)以及闭源大语言模型API(如 GPT-4、Claude 3)

敏感内容过滤

除了去除低质量内容,收集到的数据还可能包括有毒内容或隐私信息,需要进一步进行更为细致的过滤和处理。

数据去重

由于大语言模型具有较强的数据拟合与记忆能力,很容易习得训练数据中的重复模式,可能导致对于这些模式的过度学习。

去重可以在句子级别、文档级别和数据集级别等多种粒度上进行。在去重过程中,可以使用精确匹配算法或近似匹配算法。对于精确匹配来说,通常使用后缀数组来匹配最小长度的完全相同子串。对于近似匹配来说,可以采用局部敏感哈希(Locality-Sensitive Hashing, LSH)算法,如最小哈希(MinHash)来实现。

3、词元化(分词)

BPE分词

        字节级别的BPE(Byte-level BPE, B-BPE):如括GPT-2 、BART 和LLaMA都采用这种分词方法

WordPiece分词

        BERT模型使用

Unigram 分词

        T5 和mBART使用

4、数据调度

完成数据预处理之后,需要设计合适的调度策略来安排这些多来源的数据,进而用于训练大语言模型。通常来说,数据调度(Data Scheduling)主要关注两个方 面:各个数据源的混合比例以及各数据源用于训练的顺序(称为数据课程)。

模型架构

1、归一化的位置

  • Post-Norm

Post-Norm 是在原始Transformer 模型中所使用的一种归一化技 术。其中,归一化模块被放置于残差计算之后。其计算公式如下:

其中,Norm 表示任意一种归一化方法。在原理上,后向归一化具有很多优势。首先,有助于加快神经网络的训练收敛速度,使模型可以更有效地传播梯度,从而减少训练时间。其次,后向归一化可以降低神经网络对于超参数(如学习率、初始 化参数等)的敏感性,使得网络更容易调优,并减少了超参数调整的难度。然而, 由于在输出层附近存在梯度较大的问题,采用Post-Norm 的Transformer 模型在训 练过程中通常会出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值